
谷歌Gemini的AI图像模型迎来'超棒'升级
09-02-2025
Google正在为其Gemini聊天机器人升级一个新的AI图像模型,该模型使用户能够更精细地编辑照片,这是为了追赶OpenAI的流行图像工具并从ChatGPT吸引用户而采取的措施。
名为Gemini 2.5 Flash Image的更新从周二开始向所有Gemini应用用户推出,同时也通过Gemini API、Google AI Studio和Vertex AI平台向开发者开放。
Gemini的新AI图像模型旨在基于用户的自然语言请求,对图像进行更精确的编辑,同时保持面部、动物和其他细节的一致性,这是大多数竞争对手工具难以做到的。例如,要求ChatGPT或xAI的Grok改变照片中某人的衬衫颜色,结果可能包括扭曲的面部或改变背景的背景。
Gemini 2.5 Flash Image的原生图像编辑器混合了狗和人的照片,同时保留了他们的相似性
图片来源:Google
Google的新工具已经引起了关注。最近几周,社交媒体用户在众包评估平台LMArena上对一个令人印象深刻的AI图像编辑器赞不绝口。该模型以"nano-banana"的匿名形式出现在用户面前。
周末在显微镜下在实验室发现的奇怪物体...
pic.twitter.com/t1SBhqAnL0
— Demis Hassabis (@demishassabis)
2025年8月25日
Google表示,该模型背后是它(如果所有与香蕉相关的提示还不够明显的话),这实际上是其在旗舰Gemini 2.5 Flash AI模型中的原生图像功能。Google表示,该图像模型在LMArena和其他基准测试中处于最先进水平。
Google声称其新的AI图像模型在多个基准测试中处于最先进水平
"我们真正推动的是视觉质量的提升,以及模型遵循指令的能力,"Google DeepMind视觉生成模型产品负责人Nicole Brichtova在接受TechCrunch采访时表示。
"这次更新在使编辑更加无缝方面做得更好,模型的输出可用于您想要的任何用途,"Brichtova说道。
AI图像模型已成为大型科技公司的关键战场。当OpenAI在3月推出GPT-4o的原生图像生成器时,由于大量AI生成的吉卜力工作室迷因,ChatGPT的使用量急剧上升,据OpenAI CEO Sam Altman称,这导致公司的GPU"融化"。
为了跟上OpenAI和Google的步伐,Meta上周宣布将从创业公司Midjourney授权AI图像模型。与此同时,由a16z支持的德国独角兽Black Forest Labs继续以其FLUX AI图像模型在基准测试中占据主导地位。
也许Gemini令人印象深刻的AI图像编辑器可以帮助Google缩小与OpenAI的用户差距。ChatGPT现在每周有超过7亿用户。在7月的Google财报电话会议上,这家科技巨头CEO Sundar Pichai透露,Gemini有4.5亿月度用户——这意味着周用户甚至更低。
Brichtova表示,Google特别设计了这个图像模型,考虑了消费者用例,例如帮助用户可视化他们的家庭和花园项目。该模型还具有更好的"世界知识",可以在单个提示中合并多个参考;例如,将沙发、客厅照片和调色板合并为一个连贯的渲染。
Gemini 2.5 Flash Image让用户能够与AI图像模型进行"多轮"对话
图片来源:Google
虽然Gemini的新AI图像生成器使用户更容易制作和编辑真实图像,但该公司有限制用户可以创建内容的保障措施。Google过去在AI图像生成器保障方面遇到了困难。有一次,公司为Gemini生成历史上不准确的人物照片道歉,并完全撤回了AI图像生成器。
现在,Google认为它找到了更好的平衡。
"我们希望给用户创意控制,让他们能够从模型中获得他们想要的东西,"Brichtova说道。"但这并不意味着什么都可以。"
Google服务条款的生成AI部分禁止用户生成"未经同意的亲密图像"。这些相同的保障措施似乎在Grok中不存在,它允许用户创建看起来像名人(如Taylor Swift)的AI生成露骨图像。
为了应对深度伪造图像的增加,这会让用户难以辨别网络上的真实内容,Brichtova表示,Google对AI生成的图像应用视觉水印,以及在其元数据中添加标识符。然而,在社交媒体上滚动浏览图像的人可能不会寻找此类标识符。