OpenAI 下一代模型 Orion 的能力提升,没有 GPT-3 到 GPT-4 的飞跃感!The Information 报道了来自 OpenAI 内部研究人员的测试反馈,Orion 在语言任务方面表现更好,但在编码能力上可能都没法超过 o1,而且运行成本更高。Orion 应该会在明年初发布,目前还在进行安全测试。
现在模型进展速度放缓的原因之一就是高质量文本和其他数据的供应越来越少,而 LLMs 需要在预训练期间处理这些数据,以便理解世界和不同概念之间的关系。Orion的部分训练内容使用来自 o1 的合成数据,众所周知,这种合成数据正在导致一个新问题,Orion 最终可能会在某些方面与那些旧模型相似。那么 OpenAI 如何应对预训练 Scaling Law 的瓶颈和“数据撞墙”的问题呢?
1. Test-time Compute:o1 模型就是这个方法的实践,利用额外的计算资源来提高响应质量,而无需更改底层模型。这种方法允许模型在回答问题时“思考”更长时间,从而提高推理能力,Orion 应该在模型中内置了这种机制;
2. Post-Training 阶段的改进:OpenAI正在利用强化学习和人类反馈来改善模型在特定任务上的表现。例如要求人类评估者在特定的编码或问题解决任务中测试预训练模型,并对答案进行评分,这有助于研究人员调整模型,改进它们对某些类型请求的回答,如写作或编码。 Scale AI 和 Turing 等公司管理数千名承包商,新的带推理过程的人类数据,是个巨大的市场;
3. 数据中心的扩展:尽管面临成本挑战,OpenAI仍在开发昂贵的多亿数据中心,以尽可能从预训练模型中获取性能提升。能否有改进,就得看 xAI 十万卡集群训练出来的 Grok-3 的表现了;
4. 应对数据瓶颈:由于高质量训练数据的匮乏,为此 OpenAI 成立了一个基础团队,由之前负责预训练的尼克-莱德(Nick Ryder)领导,负责研究如何解决训练数据匮乏的问题,以及 Scaling Law 还将适用多久;
5. 多步骤任务的 AI 代理:对于常识性问题,目前 LLMs 的性能已经达到了顶峰,但在编码和解决复杂、多步骤问题等任务方面,还有很大提升空间。但这方面 Anthropic 带来了巨大的竞争压力,因此 OpenAI 加强代码和多步骤任务执行的能力,让模型可以接管人们的电脑,完成复杂的网络浏览器活动或应用程序的使用任务。其实 Google 的 Gemini 也在这样做,竞争导致的殊途同归 。。。
也许,真正聪明的 AI Agents 的诞生,就是行业的下一次 ChatGPT 时刻。