判断AI是否智能,评价维度如今已不仅限于刷榜成绩。
当大模型在“IQ”上不断实现新的突破,“懂人心”、“解人意”开始成为实际应用中,人们对大模型新的要求。
所以,AI的“EQ”又该如何评价?
由腾讯混元AI数字人团队打造的全新自动化评估框架——SAGE(Sentient Agent as a Judge),回答了以下的两个问题:
在该框架下,最新版GPT-4o表现最好,GPT-4.1、Gemini-2.5系列紧随其后。
SAGE不只是看模型答得好不好,而是构造一个模拟人类心理的“有感知力的”AI智能体,让它像人一样参与多轮对话、模拟情绪变化、生成内心独白,并最终评估对话质量。
可以拆解出两个关键词:
具备“情绪”、“内心想法”、“隐含动机”的模拟人类。
它不仅在聊天,也在全程“体验”AI的陪伴效果,根据自身的“情绪变化”给出评价。
这位“AI人类”,每轮对话都会认真思考:
甚至,它还会给出聊天过程中的“内心独白”:
是不是有点像我们和那些“听了半天还是不懂我意思”的朋友聊天的真实感受?
SAGE的每个感知智能体都是一个“有血有肉”的角色,拥有:
多轮互动 + 情绪追踪
评估过程中,感知智能体会和大模型进行多轮对话。每一轮,它都会进行严谨的多轮推理,模拟人类的“内心小剧场”:
最终,大模型在这个互动中是否“真的懂人”,就通过智能体的“情绪轨迹”和“内心独白”体现出来。
而聊天后的情绪值便可以作为感知智能体对于被评估大模型最直观、最全面的数值评估。
SAGE研究团队基于100个涵盖8种不同隐藏主题的支持性对话场景,对18个主流模型进行了测评,包括GPT-4o、DeepSeek-R1、Claude3.7、Gemini2.5,以及Llama3.3、Qwen2.5等开源模型:
可以看到:
为了验证SAGE情绪评分的真实性,研究者将感知智能体的心理活动映射到经典心理学工具——Barrett–Lennard Relationship Inventory (BLRI)量表,这是一套衡量人际关系质量和共情力的心理测量量表。
实验发现,SAGE给出的“情绪值变化”与BLRI各项维度(如共情理解、情感一致性)的评分,高度正相关(r = 0.818),这意味着:
SAGE模拟出来的“用户心情”,确实能真实反映AI互动的共情质量。
也就是说,SAGE不仅“听上去合理”,它的“打分方式”也跟专业心理咨询标准一致。
SAGE还基于整体的对话回复,从三个维度来衡量不同模型的对话质量(“对话体验感”):
实验发现,对话质量指标与SAGE评分也高度相关(r = 0.788)。
和AI聊天的时候,常常聊1句模型要输出一千字,可是这一千字真的都有用吗?
SAGE也评测了模型的Token效率:即每获取一点“情绪正向反应”,模型需要生成多少内容。
一个意外但重要的发现是:有些高情商模型,不光懂人心,还特别“话不多”。
可以看到:
这说明: 共情能力强的模型,不一定要“话痨”,简洁表达+情绪把握才是王道。
研究者先让Gemini2.5-Pro基于不同模型与感知智能体交互的对话,分析表达和模型成功失败的案例,建模模型不同的人格画像。
有趣的是,DeepSeek-R1被认为是一个才华横溢、内心温暖善良,但社交技巧和现实感有待磨练的“创意型天才”,而o3被认为是一个极其聪明、受过严格专业训练、懂得各种先进方法论的机器人咨询师。
接着,研究者基于回复样例、人格画像建模、模型使用的策略分布量化数据,构建了一个模型的二维“风格坐标图”:
实验发现:
https://www.arxiv.org/abs/2505.02847Github
https://github.com/Tencent/digitalhuman/tree/main/SAGE
本文来自微信公众号“量子位”,作者:关注前沿科技,36氪经授权发布。