OpenAI研究员深度访谈:在模型时代,人类工作最需要的是软技能-卓世科技-中国行业大模型先锋
微信扫码了解我们
服务热线
13321112233

预约演示

姓名
* 电话
邮箱
地址
内容

OpenAI研究员深度访谈:大模型时代,人类工作最需要的是软技能

2025/02/17

Anthropic负责Claude对外关系负责人Alex Albert昨天发了一个推文,吐槽人们对大模型的态度变化:
一开始你们说,"LLMs会产生幻觉,根本不可信 ";接下来又说, "好吧,幻觉没有那么多了,但如果你问它一个非常难的问题,它还是会有问题"。再然后是, "嗯,幻觉已经没那么严重了,但答案却不是前沿学术论文、专家级研究的质量"。不到一年,AI评论家的论点就是这样变化的。

这段话的言外之意当然很简单,就是虽然你们不断说AI有这样那样的问题,但是你们忘了AI还在不断进化(潜台词,人类的智能则是停滞不前的)。其实我同意这个看法,所以从去年以来,只要有发言场合,我就说,千万不要以“刻舟求剑”的思路看AI。今年春节之前,谁能想到一夜之间无人愿意再讨论六小龙,只剩DeepSeek了呢?

当AI大规模、深层次渗入我们的工作已经不可避免。当AI越来越强。人类应该干什么,应该学什么?我一直在思考这个问题的答案。

所以,这次油管Lenny's Podcast播客,邀请了OpenAI研究员Karina Nguyen做的这次访谈,价值就比较高了:充满个人思考的干货,没有任何公关痕迹。

Karina Nguyen目前在OpenAI 负责研究工作,在开发 Canvas、Tasks 和 o1 语言模型等开创性产品的过程中发挥了关键作用。而在OpenAI之前,Karina 在Anthropic工作,领导了 Claude 3 模型的后期training和评估工作,创建了具有 100,000 个上下文窗口的文档上传功能,并为许多其他创新做出了贡献。

最有意思的是,她自身虽然在模型公司工作,但是她的工作也曾被AI冲击了,甚至让她转岗。

她一开始在 Anthropic时,负责基础工程工作(我理解是偏前端开发的)。但是有一天意识到,“天啊,Claude 在前端开发方面变得越来越好了,在编码方面也越来越好了,我认为 Claude 可以开发新的应用程序"("I really love fundamental engineering. And then the reason why I switched to research is because I realized, oh my god claude is getting better at current ends. Claude is getting better at coding. I think claude can develop new apps."),所以,她就只能转岗了。

不过,她也在访谈中补充说明,虽然模型可能达到前端开发的前 1% 水平,但在某些专业领域,尤其是涉及用户体验和交互设计的领域,人类工程师的专业技能仍然不可或缺。教会大模型美感,是一件很困难的事,但是,恐怕也只需要最顶尖的人了,而不是一般设计工作。

最终,她在访谈中给出的核心建议是:在模型时代:软技能才是未来工作的趋势。

至于何为软技能,她给出了一些参考:
1、创造性思维(Creative thinking):
在 OpenAI 工作的经历让她认识到,虽然 AI 在编程、分析等技术领域进展迅速,但在创意方面仍然相当受限。她提到要"产生大量想法并筛选",这个过程不仅仅是提出创意,更重要的是要有判断力,能分辨出最适合的产品体验。这种能力在她从工程师转向研究工作时尤其重要 —— 因为研究工作需要不断探索新的可能性,而不是简单执行已知的任务。

2、倾听能力(Listening):
她分享了 Canvas 项目的经验,指出产品的成功很大程度上取决于对用户需求的理解。当 AI 可以完成大量技术工作时,真正的价值差异来自于是否能准确理解并快速响应用户反馈。在访谈中她提到,模型能力再强大,最终的优势还是在于你是否真正理解了用户需求。

3、优先级判断(Prioritization):
优先级判断则是她在管理岗位上的深刻体会。特别是在 AI 研究领域,她发现瓶颈往往不是技术本身,而是如何做出正确的资源分配决策。例如,在有限的计算资源下,要决定投入到哪些研究方向,这需要很强的判断能力。她直言不讳地说,AI 研究的进展经常受限于管理决策,而不是技术能力。

她甚至认为,模型训练也越来越像是艺术,而非科学,对错与否我无法判断,但是值得参考。

***
其他有价值的信息还有很多,比如比较OpenAI和Claude两家公司的文化差异,具体见访谈概要:

一:「模型训练更像是一门艺术而非科学」
Karina 认为,外界对模型训练的最大误解在于将其视为一个纯技术性的过程。事实上,模型训练更像是一门艺术,其中最关键的是数据质量和模型行为的把控。她以 Claude 早期训练为例解释这一点:当训练团队试图教会模型"你没有物理身体"这样的自我认知时,却发现模型在其他训练数据中学习到了设置闹钟等需要物理交互的功能,这导致模型在理解自身能力范围时产生困惑。

这种情况下,模型可能会过度拒绝用户请求,简单回复"对不起,我无法帮助你"。因此,训练团队需要在模型的实用性和安全性之间找到微妙的平衡点,确保模型既能为用户提供帮助,又不会产生有害行为。这种平衡的把握需要大量的经验和艺术性判断。
调试模型的过程与调试软件有许多相似之处,但又带有其独特的挑战。训练师需要不断观察模型在各种场景下的表现,识别出行为模式中的不一致,然后通过精心设计的训练数据来纠正这些问题,使模型在多样化的场景中都能表现得更加稳健。

二:「合成数据是模型进步的关键动力」
针对"模型是否会因为互联网数据用尽而停止进步"这一普遍担忧,Karina 提出了完全不同的观点。她认为,合成数据的出现正在改变游戏规则。在后训练阶段,模型可以通过强化学习来掌握无限多的任务,比如如何搜索网络、如何使用计算机、如何写作等。
这种方法的优势在于可扩展性和成本效益。通过让模型自己生成训练数据,团队可以更高效地教会模型新的行为和能力。例如,在开发 Canvas 功能时,他们使用合成数据来训练模型识别何时触发画布、如何更新文档,以及如何做出恰当的评论。这种方法不仅成本较低,而且可以快速迭代改进。

但 Karina 也指出,合成数据并不能完全替代人类专家的知识。在某些特定领域,如化学或生物学知识,仍然需要专家的输入来确保数据的准确性和专业性。理想的做法是将合成数据与人类专家知识相结合,从而实现最优的训练效果。

三:「软技能将在 AI 时代变得更加重要」
随着 AI 能力的不断提升,Karina 认为未来最有价值的技能将是创造性思维、倾听能力和协作能力等软技能。她观察到,虽然 AI 在编程、设计等硬技能方面表现出色,但在审美、视觉设计和创意写作等需要真正创造力的领域仍然存在明显短板。

这种判断部分源于她的亲身经历——当她发现 AI 在编程领域的快速进步时,主动从工程师转型为研究员。但她同时指出,目前 AI 在创造性工作中仍面临重要局限:模型难以真正理解什么是优秀的视觉设计,也难以在写作中展现出真正的创造力。这些领域仍然需要人类的审美判断和创造性投入。

特别值得注意的是,Karina 强调 AI 研究本身的发展也受限于管理能力。在项目优先级排序、跨团队协作等方面,人的判断和协调能力仍然是不可替代的。她认为,未来职场中,优先级判断、沟通、管理、同理心等人际技能的重要性会进一步提升。

四:「产品开发正在向基于评估(Evals)的范式转变」
Karina 分享了 AI 产品开发的新范式。不同于传统的"PRD-开发-评审"流程,AI 产品开发更多围绕"evals"(评估)展开。她以 Tasks 功能开发为例解释了这一过程:团队首先需要定义正确行为的标准,比如当用户说"明天早上 8 点提醒我去吃午饭"时,模型应该如何准确解析时间信息。

这种评估驱动的开发方式有两个关键环节:确定性评估和人工评估。确定性评估关注模型是否能准确完成特定任务,如时间解析;人工评估则需要训练师或内部团队对模型的多个版本进行对比,选出效果最好的方案。Karina 强调,好的评估标准应该让基线模型(未经特殊训练的模型)获得较低分数,这样才能清晰地衡量训练的效果。

产品经理需要学会设计这些评估标准,因为它们直接影响着模型的训练方向。有趣的是,这些评估标准本身也可以作为训练数据 —— 如果你给模型一个包含正确行为示例的电子表格,它往往能学会如何改进自己的表现。

五:「下一代交互模式:从同步对话到异步代理」
讨论到 AI 交互形式的演进时,Karina 指出了一个重要趋势:我们正在从同步的对话模式向异步的代理模式过渡。她以新发布的 Operator 功能为例,解释了这种转变:AI 代理可以在虚拟环境中完成复杂任务,比如在亚马逊上购书,而不需要用户持续参与每个步骤。

但这种转变带来了新的挑战。首先是技术层面的:目前的模型在处理像素级的视觉信息时还不够完善,这影响了它们操作计算机界面的能力。更重要的是用户体验层面的考虑:如何确保代理能准确理解用户意图?你不会希望代理花费 10 分钟执行任务,最后返回的结果却完全不是用户想要的。

这就引出了 Karina 团队正在研究的重点:如何教会模型更好地理解人类意图,在必要时提出跟进问题,而不是盲目执行任务。这需要模型具备"人际交往技能",能够建立用户的心智模型,并在此基础上做出合适的判断。

六:「OpenAI 与 Anthropic 的文化差异」
作为少有的同时在两家顶级 AI 实验室工作过的工程师,Karina 分享了她观察到的文化差异。她认为这两家公司"相似之处多于不同",但确实存在一些微妙的区别。

Anthropic 以其对模型行为的精心打磨而著称。这反映在 Claude 的性格特征上 —— 它更像一位博学的图书管理员,这某种程度上体现了创造者们的特质。团队非常注重细节,会仔细考虑模型在各种情况下的道德行为选择。同时,Anthropic 也更注重聚焦和严格的优先级排序,这可能与其规模较小(Karina 在职时约 70 人)有关。

相比之下,OpenAI 的创新文化更为显著,在产品和研究方面都愿意承担更多风险。团队成员有更大的创作自由度,可以专注于具体问题,比如"教模型如何成为创意写手"。这种自由度部分源于其较大的规模。OpenAI 采用更多自下而上的方式,允许想法自然涌现,这导致了更多产品的推出,但可能在某些细节的打磨上不如 Anthropic 深入。

七:「如何利用原型快速验证 AI 产品创意」
在讨论产品开发方法时,Karina 特别强调了原型验证的重要性。她认为,AI 时代的产品开发不必等到所有技术都完全成熟。相反,通过提示工程(Prompting)就能快速验证产品创意。她举例说明,在 Anthropic 时期,她通过简单的提示就验证了文件上传功能的可行性,这最终发展成为 Claude 的一个重要特性。

这种方法的优势在于速度和灵活性。例如,在开发个性化启动提示功能时,团队可以通过提示工程快速测试不同的个性化策略。对话标题生成功能的开发也采用了类似方法——模型会分析用户最近五次对话的风格,确保新生成的标题与用户风格保持一致。
Karina 认为,这种原型验证方法正在改变整个产品开发流程。产品经理不再仅仅提供文档和设计稿,而是能够直接展示功能原型。这大大加快了从创意到实现的过程,也让团队能更早获得反馈。

八:「为什么战略制定也将被 AI 取代」
在讨论 AI 的局限性时,Karina 对"战略规划将继续由人类主导"的普遍观点提出了不同看法。她认为,随着模型变得越来越强大,它们完全有能力进行战略分析和规划。例如,模型可以整合来自多个来源的数据:用户反馈、内部仪表盘指标、其他类型的反馈,然后制定出合理的计划和建议。

她指出,人类在战略制定时的一个主要限制是一次只能处理有限的信息。相比之下,随着上下文窗口的扩大(如 100K 上下文),模型可以同时分析和综合大量信息。这种能力在科研领域特别有价值——模型可以基于之前实验的经验结果,提出新的研究方向和方法。

这一观点挑战了当前普遍认为"战略思维是人类独特优势"的看法。Karina 认为,只要给予足够的数据和上下文,AI 完全可以进行高质量的战略分析和决策。

九:「AI 研究的瓶颈在于评估标准」
Karina 指出,当前 AI 发展的主要瓶颈并非数据短缺,而是评估标准的不足。她举例说明,在某些评估基准上(如 Google PhD 级别的问题回答),模型已经达到了 60-70% 的准确率,这与人类 PhD 的表现相当。问题在于,我们缺乏能够衡量更高层次能力的"前沿评估标准"。

这一观察揭示了 AI 研究的一个根本挑战:如何定义和衡量超越当前人类水平的能力。当模型在现有基准测试中达到饱和时,研究团队需要开发新的评估方法来推动进一步的进步。这不仅是技术问题,也是认识论的挑战——如何评估我们可能都不完全理解的能力。

这也解释了为什么 Karina 的团队投入大量精力开发新的评估方法,以及为什么她认为这对 AI 的未来发展至关重要。