首个用户生活「长程模拟器」来了！LifeSim重新定义大模型个性化评测

速读：复杂外部环境：真实用户需求并不是脱离环境独立产生的，而是会受到时间、地点、天气、生活事件等复杂外部情境的共同影响； LifeSim是面向长期个性化助手评测的用户生活模拟框架，核心由四部分组成：用户画像、基于信念-愿望-意图（Belief-Desire-Intention，BDI）的认知引擎、基于环境约束的事件引擎、用户行为引擎。欲望：是当前激发的需求，由真实用户需求库匹配而来；动态用户认知：用户意图往往受到长期偏好、个性特征、近期经历和当前心理状态的共同塑造。基于BDI模型的认知引擎与事件引擎相结合，将主观信念状态与物理环境进行融合，共同生成用户意图。

2026年04月06日 08:38

近年来，大语言模型（Large Language Model，LLM）在个性化智能助手任务上取得了快速进展，通用 AI 助手的愿景也变得越来越可实现。然而，现有针对个性化助手的评测基准，仍然与真实世界中的用户-助手交互存在明显脱节，其局限性主要体现在两个方面：

复杂外部环境：真实用户需求并不是脱离环境独立产生的，而是会受到时间、地点、天气、生活事件等复杂外部情境的共同影响；

动态用户认知：用户意图往往受到长期偏好、个性特征、近期经历和当前心理状态的共同塑造。

由于真实长期用户交互数据受到隐私与伦理限制，长时间、跨场景的公开数据极为稀缺，这也使得现有评测难以真正逼近现实中的个性化助手使用场景。

针对这些挑战，来自复旦大学、上海创智学院的研究人员提出 LifeSim，一个面向个性化助手评测的长程用户生活模拟框架。LifeSim 同时建模用户内部认知过程与外部物理环境，生成连贯的生活轨迹、事件序列与多轮交互行为；在此基础上，研究团队进一步构建了 LifeSim-Eval，用于系统评测模型在长期个性化交互中的能力边界。

论文标题：LifeSim: Long-Horizon User Life Simulator for Personalized Assistant Evaluation

论文地址： https://arxiv.org/abs/2603.12152

GitHub 地址： https://github.com/dfy37/lifesim

Demo 链接： http://fudan-disc.com/lifesim/

图 1 ：基于长程时空上下文的个人 AI 助手。用户行为会随外部环境动态演化，同时又体现出稳定的个人特质。要实现有效响应，模型需要在适配当前上下文的同时，利用交互历史推断用户状态，从而动态调整自身策略。

融合 BDI 理论的模拟框架：LifeSim

LifeSim 是面向长期个性化助手评测的用户生活模拟框架，核心由四部分组成：用户画像、基于信念-愿望-意图（Belief-Desire-Intention，BDI）的认知引擎、基于环境约束的事件引擎、用户行为引擎。

图 2 ：LifeSim 框架概览。针对每个目标用户，其用户画像包含人口统计学属性、人格特质与长期偏好，这些要素共同构成长期信念状态。基于 BDI 模型的认知引擎与事件引擎相结合，将主观信念状态与物理环境进行融合，共同生成用户意图。随后，用户行为引擎通过对记忆感知、情绪推理与行为选择进行建模，生成对话内容。

为支持用户多样性，LifeSim 构建百万级用户画像池，每个画像包含人口统计学属性、基于大五人格的特质及长期偏好。基于 BDI 模型的认知引擎用于模拟用户内部认知，其中：

信念：涵盖长期画像与短期情境认知；

欲望：是当前激发的需求，由真实用户需求库匹配而来；

意图：是最终形成的行动倾向，具体通过结合用户画像、近期经历及当前环境生成合理意图。

事件引擎以真实出行轨迹为基础，融入时间、地点等环境因素，根据用户状态生成连贯生活事件，让用户需求自然涌现。用户行为引擎则模拟多轮交互表现，综合考虑记忆、情绪与行为选择，生成的回复兼具画像一致性、上下文相关性与自然度。自动与人工评测验证了行为引擎的有效性。

表 1 ：基于不同模型基座的用户行为引擎在四个维度上的性能表现。

更贴近真实世界的评测环境：LifeSim-Eval

基于 LifeSim，LifeSim-Eval 被提出用于评测长期个性化助手场景下的模型核心能力。区别于传统评测，其更关注三点：

模型能否识别并满足显隐性意图。其中显性意图为用户直接表达的需求，隐性意图需结合画像、场景与偏好推断；

能否重建用户画像；

LifeSim-Eval 利用 LifeSim 构建 120 个用户、1200 个评测场景，覆盖 8 个常见生活领域，并设置两种评测模式：

单场景模式：仅基于当前场景，与 LifeSim 中的模拟用户完成多轮对话（最多 20 轮）；

长时程模式：需结合历史交互响应当前场景。

核心评测指标包括意图识别、意图完成度、偏好重建、画像对齐，以及回复的自然度与连贯性。

实验结果与关键发现

论文在多类主流 LLM 上进行了系统评测，涵盖 GPT-5、GPT-4o、Claude Sonnet 4.5，以及 DeepSeek-V3.2、Qwen、Llama、gpt-oss 等多个开源 / 闭源模型。实验揭示出以下几个核心结论：

显性意图较强，隐性意图明显更难

在单场景设置中，大多数模型在显性意图识别上表现较好，但在隐性意图识别上普遍存在超过 20 分的性能差距。这说明当前模型已经较擅长处理用户直接表达的需求，但对于需要结合上下文和用户状态推断出的潜在需求，能力仍明显不足。

主题：认知引擎|长期偏好