谷歌Gemini的AI图像模型迎来'超棒'升级

09-02-2025

Google正在为其Gemini聊天机器人升级一个新的AI图像模型，该模型使用户能够更精细地编辑照片，这是为了追赶OpenAI的流行图像工具并从ChatGPT吸引用户而采取的措施。

名为Gemini 2.5 Flash Image的更新从周二开始向所有Gemini应用用户推出，同时也通过Gemini API、Google AI Studio和Vertex AI平台向开发者开放。

Gemini的新AI图像模型旨在基于用户的自然语言请求，对图像进行更精确的编辑，同时保持面部、动物和其他细节的一致性，这是大多数竞争对手工具难以做到的。例如，要求ChatGPT或xAI的Grok改变照片中某人的衬衫颜色，结果可能包括扭曲的面部或改变背景的背景。

Gemini 2.5 Flash Image的原生图像编辑器混合了狗和人的照片，同时保留了他们的相似性

图片来源：Google

Google的新工具已经引起了关注。最近几周，社交媒体用户在众包评估平台LMArena上对一个令人印象深刻的AI图像编辑器赞不绝口。该模型以"nano-banana"的匿名形式出现在用户面前。

周末在显微镜下在实验室发现的奇怪物体...
pic.twitter.com/t1SBhqAnL0
— Demis Hassabis (@demishassabis)
2025年8月25日

Google表示，该模型背后是它（如果所有与香蕉相关的提示还不够明显的话），这实际上是其在旗舰Gemini 2.5 Flash AI模型中的原生图像功能。Google表示，该图像模型在LMArena和其他基准测试中处于最先进水平。

Google声称其新的AI图像模型在多个基准测试中处于最先进水平

"我们真正推动的是视觉质量的提升，以及模型遵循指令的能力，"Google DeepMind视觉生成模型产品负责人Nicole Brichtova在接受TechCrunch采访时表示。

"这次更新在使编辑更加无缝方面做得更好，模型的输出可用于您想要的任何用途，"Brichtova说道。

AI图像模型已成为大型科技公司的关键战场。当OpenAI在3月推出GPT-4o的原生图像生成器时，由于大量AI生成的吉卜力工作室迷因，ChatGPT的使用量急剧上升，据OpenAI CEO Sam Altman称，这导致公司的GPU"融化"。

为了跟上OpenAI和Google的步伐，Meta上周宣布将从创业公司Midjourney授权AI图像模型。与此同时，由a16z支持的德国独角兽Black Forest Labs继续以其FLUX AI图像模型在基准测试中占据主导地位。

也许Gemini令人印象深刻的AI图像编辑器可以帮助Google缩小与OpenAI的用户差距。ChatGPT现在每周有超过7亿用户。在7月的Google财报电话会议上，这家科技巨头CEO Sundar Pichai透露，Gemini有4.5亿月度用户——这意味着周用户甚至更低。

Brichtova表示，Google特别设计了这个图像模型，考虑了消费者用例，例如帮助用户可视化他们的家庭和花园项目。该模型还具有更好的"世界知识"，可以在单个提示中合并多个参考；例如，将沙发、客厅照片和调色板合并为一个连贯的渲染。

Gemini 2.5 Flash Image让用户能够与AI图像模型进行"多轮"对话

图片来源：Google

虽然Gemini的新AI图像生成器使用户更容易制作和编辑真实图像，但该公司有限制用户可以创建内容的保障措施。Google过去在AI图像生成器保障方面遇到了困难。有一次，公司为Gemini生成历史上不准确的人物照片道歉，并完全撤回了AI图像生成器。

现在，Google认为它找到了更好的平衡。

"我们希望给用户创意控制，让他们能够从模型中获得他们想要的东西，"Brichtova说道。"但这并不意味着什么都可以。"

Google服务条款的生成AI部分禁止用户生成"未经同意的亲密图像"。这些相同的保障措施似乎在Grok中不存在，它允许用户创建看起来像名人（如Taylor Swift）的AI生成露骨图像。

为了应对深度伪造图像的增加，这会让用户难以辨别网络上的真实内容，Brichtova表示，Google对AI生成的图像应用视觉水印，以及在其元数据中添加标识符。然而，在社交媒体上滚动浏览图像的人可能不会寻找此类标识符。

谷歌Gemini的AI图像模型迎来'超棒'升级

广告

您可能喜欢

热门新闻

广告

精选新闻

最新文章

广告

快速链接

政策

分类

订阅我们的新闻通讯

© 2024-2026 NewsTechX.com. 版权所有.