腾讯混元CL-bench续作发布，让大模型读懂你的日常生活

速读：这些rubrics被设计得尽可能原子化，从而能够更全面、更细粒度地评估模型的答案是否正确。生活是混乱的、极其碎片化的，仅仅依靠时间线勉强串联。

2026年05月01日 11:3

机器之心发布

我们对于 “个人助手” 的想象，正在变得越来越具体。

一个真正嵌入日常生活的 AI 助手，需要能够从每个人生活中的蛛丝马迹里学习和理解，解决复杂生活场景中问题。

在 AGI-Next 前沿峰会上，腾讯姚顺雨举了一个很生活化的例子：当你问 AI “今天吃什么” 时，真正限制答案质量的，可能不是模型不够大，也不是推理不够强，而是它不知道你今天冷不冷、想不想吃热的、最近和朋友聊过什么、家人又有什么偏好需要纳入考虑。

因此，下一代 AI 助手真正需要的，往往不是记住更多 “知识”，而是对 “生活上下文（context）” 的理解与推理。这也正是 CL-Bench family 最新续作 CL-Bench Life 想要回答的问题。

论文题目：CL-Bench Life: Can Language Models Learn from Real-Life Context？

项目主页：www.clbench.com

下面，我们将结合混元模型团队的最新博客《Real life is where context gets hard》，看看那些人类应对起来几乎毫不费力的日常，对于 AI 来说为何如此棘手。

博客链接： https://hy.tencent.com/research/100039

在日常生活中，Context 的复杂性以另一形式展现

The other h alf of context learning

想要真正解决现实世界的问题，AI 不能仅仅依赖训练时记住的知识，它必须从当下正在发生的事情中学习新的 context、基于它们进行推理，并记住那些真正关键的信息。此前，我们打造了 CL-Bench 来测试这种上下文学习能力。但现在回过头看，我们给 AI 了一个巨大的捷径：context 已被提前整理好。

图：专业领域或工作场景中的 context 结构相对清晰，知识点更聚焦（左）；日常生活中的 context 更凌乱，更碎片化，往往包含多个话题（右）。

这种假设在专业的领域下相对成立，但在大家的日常生活中却截然不同。回想一下我们每天都要面对的 context：

① 在一个日常闲聊和各种话题交错展开的亲友群中，理清大家本周末的时间安排、出行意愿、忌口等信息，敲定一份大家都能接受的周末旅行计划；

② 从 “文件传输助手” 里散落的几十条没来得及读的分享链接和随手写的备忘录中，拼凑出一份完整的产品规划；

③ 又或是从自己过去大半年断断续续的运动打卡和康复日志中，分析出某个部位总是容易受伤的真正原因。生活是混乱的、极其碎片化的，仅仅依靠时间线勉强串联。

图：三个日常生活面临的 context 例子。Case 1: AI 需要分析一段冗长、嘈杂的多人群聊，其中包含多条交错讨论线、不断变化的计划，以及分散在不同时段的时间冲突，来帮助组织一次读书会；Case 2: AI 需要分析大量零散的骑行记录、车况维修记录、突发事件和日记，为五天骑行计划筹备一份以安全为核心的检查单；Case 3: AI 需要分析某个用户数百条受伤前后的训练记录，判断哪些肌群受到的影响最大并安排恢复计划。

我们常常低估了这对 AI 来说有多难。最初的 CL-Bench 测试的是模型能否掌握并用好复杂的新知识。但现实生活从来没有发给我们一本 “说明书”。AI 不能只停留在理解干巴巴的规则上；它还必须能够在混乱、稀碎的线索中拼凑出事情的真相，并在各种干扰下保持极高的鲁棒性。

图：CL-bench 和 CL-bench Life 所覆盖的两类 context-learning。如果真想让 AI 蜕变为真正的私人助手，它们就必须切实读懂我们到底是如何生活的。为了迈出这一步，腾讯混元团队弥补了 CL-bench 未覆盖的场景，正式推出 CL-Bench Life 。

Introducing CL-bench Life

为了精准衡量 AI 在现实生活中的 “上下文学习” 能力，腾讯混元正式推出了 CL-Bench Life 。这是一个完全由人工精心构建的基准，包含了 405 个真实的任务。

为了最大限度地覆盖最常见的真实场景，研究团队将整个测试基准划分为三大核心类别：

图：CL-bench Life 的 context 分类体系。 1. 沟通与社交互动（与他人交互时产生的上下文）：这一类覆盖一对一私聊，混乱的多人群聊，活跃的社区讨论等场景。要在这类任务中成功，AI 必须学会 “读懂话外之意”。它需要理解复杂的人际关系，感知隐藏的情绪变化，推理出一个群体如何逐渐形成共识，并从日常闲聊中分析出真正有用的信息。

2. 碎片信息与修改轨迹（围绕自身主动产生的上下文）：这一类包括零散的个人笔记、公共信息流，以及文档反复修改留下的历史记录。这一类 context 的难点包括但不限于：需要模型必须从非常凌乱的日常信息碎片中重建出完整的逻辑线，或整理并推理出一个想法或者安排是如何被多次修改的。

3. 行为记录与活动轨迹（在生活中被动产生的上下文）：这一类涵盖游戏日志、数字足迹，以及长期个人追踪记录。在这一类型的 context 中，AI 往往需要从一串行为痕迹中推理出背后所隐含的原因。例如，它要求模型进行分析一长段消费流水 / 健身数据等的行为记录，或者理解人的潜在习惯并发现长期习惯中的异常变化等。

CL-Bench Life 还包含了 5348 条完全由纯人工编写的评分标准，平均每个任务对应 13.2 个考核点。这些 rubrics 被设计得尽可能原子化，从而能够更全面、更细粒度地评估模型的答案是否正确。

表：CL-bench Life 的统计信息，包括 context 和任务数量、rubrics 数量、context 中多轮对话的平均轮次、每个任务的 rubrics 数量，以及 context 的 token 长度。

What we found

研究团队测试了 12 个不同的语言模型（更多模型的评测结果详见的开源榜单），初步的评测结果表明，这些模型平均只能解决 CL-bench Life 中 14.5% 的任务。即便是表现最好的 GPT-5.5（High）也只能解决 22.2% 的任务。这表明模型还不擅长处理高噪声的零碎 context。

表：前沿语言模型在 CL-bench Life 上的任务解决率。这一结果甚至比在 CL-bench 中的表现更低。在 CL-bench 中，同一批模型平均能够解决 20% 以上的任务。这一差异也证实了 CL-bench Life 测试的是另一维度的 context learning 。CL-bench 中的 context 是来自专业领域的、往往相对更清楚，结构清晰，被有序的组织整理。此时，模型需要具备的能力是掌握新的知识例如规则或流程等，并有效使用它们。而相反的是，CL-bench Life 中的 context 是来自日常生活的，往往更混乱，无序，信息随时间轴可能被反复修改。在 CL-bench Life 中，模型需要整理分散在 context 各处的线索，处理噪声，并始终保持鲁棒。

这说明了，当模型面对的不再是清晰的、被相对有序整理过的 context，而是面对杂乱、碎片化、弱结构化的 context 时，context le arning 会变得更加困难。这两个场景对模型提出不同方面和程度的 context learning 要求。

除了整体表现之外，进一步的实验分析还揭示了一些重要发现：

1. 在 CL-bench Life 中，虽然模型完美解决任务的比例不高，但部分正确的比例要高得多。当研究团队调整任务通过阈值时（即一个回答至少需要满足多少比例的 rubrics 才算正确），模型的通过率会发生明显变化。阈值越宽松，各个模型的通过率都会显著上升。这说明模型虽然很难完整解决一个任务，但确实能够理解其中一部分 context，并完成一部分任务。

图：模型在不同任务通过阈值下的表现。与此同时，在不同阈值下，模型之间的相对排名大体保持稳定。这意味着 CL-bench Life 既能很好地区分 “理解部分 context” 和 “完美解决任务”，也能在这种情况下支持对不同模型进行相对稳定的比较。

表：CL-bench Life 各类别和子类别上的模型表现。 2. 不同类别的 context 对模型 context learning 能力的要求各有侧重。即便 CL-bench Life 中的 context 都属于日常生活场景，信息也都是碎片化的，但信息的类型并不一样，也导致了对模型的能力要求有不同的侧重。例如，在沟通和日常交流大类中，除了信息的碎片化外，困难也主要来自社交关系和多人互动：相关信息分散在交错的话题、讨论线也是重叠的、人物关系和对话的指代关系也更加复杂。而在碎片化信息和修订记录大类中，模型需要整合不连续的线索，并推理一个内容是如何随时间变化而不断被修改的。

3. 模型在日常生活中 context learning 能力的不足，不能简单归因于长文推理能力的问题。研究团队发现，更长的输入确实可能让任务更难，但输入长度本身并不能完全决定任务难度。具体来说，模型一旦开启 reasoning 模式，context 长度和模型表现之间的关系就变得不那么相关（如下图所示）。这说明日常生活 context learning 的主要瓶颈并不只是模型能否处理更长的输入（即长文推理能力），还在于能否处理高噪声输入。

这与 CL-bench 中的现象有所不同。在 CL-bench 中，随着 context 变长，模型表现通常会更明显地下滑，因为更长的输入往往意味着模型需要吸收更多新的复杂知识。而在 CL-bench Life 中，长度只是一个较弱的预测因素。即使 context 不长，但只要它包含大量的噪声、被反复修改，或真正的有用信息分散在的各处时，模型处理这些 context 也可能会非常困难。

主题：模型|日常生活中|问题|需要