
强化差距——或为什么某些AI技能比其他技能提高得更快
10-10-2025
AI编程工具正迅速变得越来越好。如果你不从事编程工作,可能很难注意到变化有多大,但GPT-5和Gemini 2.5已经使一系列全新的开发者技巧得以自动化,而上周的Sonnet 4.5再次实现了这一点。
与此同时,其他技能的进展则较为缓慢。如果你使用AI来写邮件,你可能获得的价值与一年前相差无几。即使模型变得更好,产品也并不总是受益——尤其是当产品是一个同时处理多种不同任务的聊天机器人时。AI仍在进步,但其进步的分布已不像过去那样均衡。
进步的差异比看起来要简单。编程应用程序受益于数十亿次易于衡量的测试,这些测试可以训练它们生成可工作的代码。这就是强化学习(RL),可以说是过去六个月AI进步的最大推动力,而且正变得越来越复杂。你可以使用人工评分者进行强化学习,但如果有一个明确的通过-失败指标,效果会最好,这样你就可以重复数十亿次而无需停下等待人工输入。
随着行业越来越依赖强化学习来改进产品,我们正在看到可自动评分的能力和不可自动评分的能力之间的真正差异。像错误修复和竞争性数学这样的对强化学习友好的技能正在迅速进步,而像写作这样的技能则只取得了渐进式的进展。
简而言之,存在一个强化差距——这正成为决定AI系统能做什么和不能做什么的最重要因素之一。
在某些方面,软件开发是强化学习的完美主题。即使在AI之前,就有一个完整的子学科专门测试软件在压力下的表现——这主要是因为开发者需要确保他们的代码在部署前不会崩溃。因此,即使是最优雅的代码仍然需要通过单元测试、集成测试、安全测试等等。人类开发者常规使用这些测试来验证他们的代码,正如谷歌开发工具高级总监最近告诉我的那样,它们对于验证AI生成的代码同样有用。不仅如此,它们对强化学习也很有用,因为它们已经大规模系统化和可重复。
没有简单的方法来验证一封写得很好的电子邮件或一个好的聊天机器人回复;这些技能本质上是主观的,难以大规模衡量。但并非每个任务都能整齐地归入"易于测试"或"难以测试"的类别。我们没有现成的测试工具包用于季度财务报告或精算科学,但资金充足的会计初创公司可能能够从头开始构建一个。当然,一些测试工具包会比其他工具包效果更好,一些公司在如何处理问题上会更聪明。但底层过程的可测试性将成为决定该过程能否成为功能性产品而不仅仅是一个令人兴奋的演示的关键因素。
事实证明,一些过程比你想象的更容易测试。如果你上周问我,我会把AI生成的视频归入"难以测试"的类别,但OpenAI新Sora 2模型的巨大进步表明,它可能并不看起来那么难。在Sora 2中,物体不再凭空出现和消失。面部保持其形状,看起来像特定的人,而不仅仅是一组特征。Sora 2的镜头在明显和微妙的方式上都尊重物理定律。我怀疑,如果你揭开帷幕,你会发现每个品质都有一个强大的强化学习系统。这些品质共同作用,创造了超现实主义和有趣的幻觉之间的区别。
明确地说,这不是人工智能的一条硬性规定。这是强化学习在AI发展中扮演中心角色的结果,随着模型的演变,这一点很容易改变。但只要RL是将AI产品推向市场的主要工具,强化差距只会越来越大——这对初创公司和整体经济都有严重影响。如果一个过程最终处于强化差距的正确一侧,初创公司可能会成功地将其自动化——任何现在从事这项工作的人最终可能不得不寻找新的职业。例如,哪些医疗服务可以被强化学习训练的问题,对未来20年经济的形态有着巨大的影响。而如果Sora 2这样的惊喜有任何指示意义,我们可能不需要等待太久就能得到答案。
与此同时,其他技能的进展则较为缓慢。如果你使用AI来写邮件,你可能获得的价值与一年前相差无几。即使模型变得更好,产品也并不总是受益——尤其是当产品是一个同时处理多种不同任务的聊天机器人时。AI仍在进步,但其进步的分布已不像过去那样均衡。
进步的差异比看起来要简单。编程应用程序受益于数十亿次易于衡量的测试,这些测试可以训练它们生成可工作的代码。这就是强化学习(RL),可以说是过去六个月AI进步的最大推动力,而且正变得越来越复杂。你可以使用人工评分者进行强化学习,但如果有一个明确的通过-失败指标,效果会最好,这样你就可以重复数十亿次而无需停下等待人工输入。
随着行业越来越依赖强化学习来改进产品,我们正在看到可自动评分的能力和不可自动评分的能力之间的真正差异。像错误修复和竞争性数学这样的对强化学习友好的技能正在迅速进步,而像写作这样的技能则只取得了渐进式的进展。
简而言之,存在一个强化差距——这正成为决定AI系统能做什么和不能做什么的最重要因素之一。
在某些方面,软件开发是强化学习的完美主题。即使在AI之前,就有一个完整的子学科专门测试软件在压力下的表现——这主要是因为开发者需要确保他们的代码在部署前不会崩溃。因此,即使是最优雅的代码仍然需要通过单元测试、集成测试、安全测试等等。人类开发者常规使用这些测试来验证他们的代码,正如谷歌开发工具高级总监最近告诉我的那样,它们对于验证AI生成的代码同样有用。不仅如此,它们对强化学习也很有用,因为它们已经大规模系统化和可重复。
没有简单的方法来验证一封写得很好的电子邮件或一个好的聊天机器人回复;这些技能本质上是主观的,难以大规模衡量。但并非每个任务都能整齐地归入"易于测试"或"难以测试"的类别。我们没有现成的测试工具包用于季度财务报告或精算科学,但资金充足的会计初创公司可能能够从头开始构建一个。当然,一些测试工具包会比其他工具包效果更好,一些公司在如何处理问题上会更聪明。但底层过程的可测试性将成为决定该过程能否成为功能性产品而不仅仅是一个令人兴奋的演示的关键因素。
事实证明,一些过程比你想象的更容易测试。如果你上周问我,我会把AI生成的视频归入"难以测试"的类别,但OpenAI新Sora 2模型的巨大进步表明,它可能并不看起来那么难。在Sora 2中,物体不再凭空出现和消失。面部保持其形状,看起来像特定的人,而不仅仅是一组特征。Sora 2的镜头在明显和微妙的方式上都尊重物理定律。我怀疑,如果你揭开帷幕,你会发现每个品质都有一个强大的强化学习系统。这些品质共同作用,创造了超现实主义和有趣的幻觉之间的区别。
明确地说,这不是人工智能的一条硬性规定。这是强化学习在AI发展中扮演中心角色的结果,随着模型的演变,这一点很容易改变。但只要RL是将AI产品推向市场的主要工具,强化差距只会越来越大——这对初创公司和整体经济都有严重影响。如果一个过程最终处于强化差距的正确一侧,初创公司可能会成功地将其自动化——任何现在从事这项工作的人最终可能不得不寻找新的职业。例如,哪些医疗服务可以被强化学习训练的问题,对未来20年经济的形态有着巨大的影响。而如果Sora 2这样的惊喜有任何指示意义,我们可能不需要等待太久就能得到答案。