谷歌Gemini的AI图像模型迎来'超棒'升级

谷歌Gemini的AI图像模型迎来'超棒'升级

09-02-2025


Google正在为其Gemini聊天机器人升级一个新的AI图像模型,该模型使用户能够更精细地编辑照片,这是为了追赶OpenAI的流行图像工具并从ChatGPT吸引用户而采取的措施。

名为Gemini 2.5 Flash Image的更新从周二开始向所有Gemini应用用户推出,同时也通过Gemini API、Google AI Studio和Vertex AI平台向开发者开放。

Gemini的新AI图像模型旨在基于用户的自然语言请求,对图像进行更精确的编辑,同时保持面部、动物和其他细节的一致性,这是大多数竞争对手工具难以做到的。例如,要求ChatGPT或xAI的Grok改变照片中某人的衬衫颜色,结果可能包括扭曲的面部或改变背景的背景。

Gemini 2.5 Flash Image的原生图像编辑器混合了狗和人的照片,同时保留了他们的相似性

图片来源:Google

Google的新工具已经引起了关注。最近几周,社交媒体用户在众包评估平台LMArena上对一个令人印象深刻的AI图像编辑器赞不绝口。该模型以"nano-banana"的匿名形式出现在用户面前。

周末在显微镜下在实验室发现的奇怪物体...
pic.twitter.com/t1SBhqAnL0
— Demis Hassabis (@demishassabis)
2025年8月25日

Google表示,该模型背后是它(如果所有与香蕉相关的提示还不够明显的话),这实际上是其在旗舰Gemini 2.5 Flash AI模型中的原生图像功能。Google表示,该图像模型在LMArena和其他基准测试中处于最先进水平。

Google声称其新的AI图像模型在多个基准测试中处于最先进水平

"我们真正推动的是视觉质量的提升,以及模型遵循指令的能力,"Google DeepMind视觉生成模型产品负责人Nicole Brichtova在接受TechCrunch采访时表示。

"这次更新在使编辑更加无缝方面做得更好,模型的输出可用于您想要的任何用途,"Brichtova说道。

AI图像模型已成为大型科技公司的关键战场。当OpenAI在3月推出GPT-4o的原生图像生成器时,由于大量AI生成的吉卜力工作室迷因,ChatGPT的使用量急剧上升,据OpenAI CEO Sam Altman称,这导致公司的GPU"融化"。

为了跟上OpenAI和Google的步伐,Meta上周宣布将从创业公司Midjourney授权AI图像模型。与此同时,由a16z支持的德国独角兽Black Forest Labs继续以其FLUX AI图像模型在基准测试中占据主导地位。

也许Gemini令人印象深刻的AI图像编辑器可以帮助Google缩小与OpenAI的用户差距。ChatGPT现在每周有超过7亿用户。在7月的Google财报电话会议上,这家科技巨头CEO Sundar Pichai透露,Gemini有4.5亿月度用户——这意味着周用户甚至更低。

Brichtova表示,Google特别设计了这个图像模型,考虑了消费者用例,例如帮助用户可视化他们的家庭和花园项目。该模型还具有更好的"世界知识",可以在单个提示中合并多个参考;例如,将沙发、客厅照片和调色板合并为一个连贯的渲染。

Gemini 2.5 Flash Image让用户能够与AI图像模型进行"多轮"对话

图片来源:Google

虽然Gemini的新AI图像生成器使用户更容易制作和编辑真实图像,但该公司有限制用户可以创建内容的保障措施。Google过去在AI图像生成器保障方面遇到了困难。有一次,公司为Gemini生成历史上不准确的人物照片道歉,并完全撤回了AI图像生成器。

现在,Google认为它找到了更好的平衡。

"我们希望给用户创意控制,让他们能够从模型中获得他们想要的东西,"Brichtova说道。"但这并不意味着什么都可以。"

Google服务条款的生成AI部分禁止用户生成"未经同意的亲密图像"。这些相同的保障措施似乎在Grok中不存在,它允许用户创建看起来像名人(如Taylor Swift)的AI生成露骨图像。

为了应对深度伪造图像的增加,这会让用户难以辨别网络上的真实内容,Brichtova表示,Google对AI生成的图像应用视觉水印,以及在其元数据中添加标识符。然而,在社交媒体上滚动浏览图像的人可能不会寻找此类标识符。
广告

1436x160

探索世界,随机旅行团,

您的冒险等待着您!

您可能喜欢

热门新闻

分类:风险投资 谷歌Gemini的AI图像模型迎来'超棒'升级
分类:初创公司 谷歌翻译推出新语言学习工具,挑战多邻国
分类:初创公司 Anthropic推出了一款可在Chrome浏览器中运行的Claude AI代理
分类:初创公司 电动汽车车主们请注意:充电适配器来了
分类:初创公司 TransUnion表示黑客窃取了440万客户的个人信息
分类:风险投资 
Meta与Scale AI的合作关系正在出现裂痕。
分类:风险投资 盒子之内:Aaron Levie在2025年TechCrunch Disrupt大会谈重塑