登录

ICLR 2026 Oral|大模型总爱「想太多」?DECS从源头消除冗余思考,实现推理token减半且性能不降反升


速读:DECS从源头消除冗余思考,实现推理token减半且性能不降反升2026年05月12日09:00机器之心Pro本文作者来自复旦大学、上海交通大学和上海人工智能实验室。
2026年05月12日 09:0

本文作者来自复旦大学、上海交通大学和上海人工智能实验室。一作江书洋为复旦大学和实验室联培博士生,目前是实验室见习研究员,师从上海交通大学人工智能学院的王钰教授和张娅教授。

以 DeepSeek-R1、OpenAI GPT Thinking 为代表的大型推理模型,通过长达数千 token 的「思维链」在各类复杂推理任务中展现出卓越的性能。然而,这些模型普遍存在一个核心问题,即 过度思考(overthinking) : 即便模型已得出正确答案,其推理过程中仍反复出现「wait...」「let me check...」「alternatively...」等自我修正与回溯性表达,造成大量冗余计算,带来大量无意义计算开销。

这一现象已引起学术界与工业界的广泛关注。一种直观的解决策略是引入「对长推理的惩罚机制」,即在强化学习训练过程中加入对过长推理序列的长度惩罚奖励项,以促使模型生成更为简洁的推理路径。

然而,实际操作中面临显著困难:若加重惩罚力度,模型倾向于省略必要的推理步骤,导致性能显著下降;若减轻惩罚力度,冗余推理依旧存在,效率难以提升。因此,推理效率与性能之间难以实现有效平衡。

在这篇 ICLR 2026 的 Oral 论文中,来自 复旦大学、上海交通大学和上海人工智能实验室的研究团队 首次从理论层面系统揭示了「长度惩罚」策略的根本局限性,并基于此 提出了一套全新的训练框架 DECS,在五项域内基准和两项域外基准测试中,均实现了推理长度减少超过 50% 的显著成效,同时模型准确率不降反升。

主题:性能|上海交通大学