ICLR 2026 Oral｜大模型总爱「想太多」？DECS从源头消除冗余思考，实现推理token减半且性能不降反升

速读：DECS从源头消除冗余思考，实现推理token减半且性能不降反升2026年05月12日09:00机器之心Pro本文作者来自复旦大学、上海交通大学和上海人工智能实验室。

2026年05月12日 09:0

本文作者来自复旦大学、上海交通大学和上海人工智能实验室。一作江书洋为复旦大学和实验室联培博士生，目前是实验室见习研究员，师从上海交通大学人工智能学院的王钰教授和张娅教授。

以 DeepSeek-R1、OpenAI GPT Thinking 为代表的大型推理模型，通过长达数千 token 的「思维链」在各类复杂推理任务中展现出卓越的性能。然而，这些模型普遍存在一个核心问题，即过度思考（overthinking）：即便模型已得出正确答案，其推理过程中仍反复出现「wait...」「let me check...」「alternatively...」等自我修正与回溯性表达，造成大量冗余计算，带来大量无意义计算开销。

这一现象已引起学术界与工业界的广泛关注。一种直观的解决策略是引入「对长推理的惩罚机制」，即在强化学习训练过程中加入对过长推理序列的长度惩罚奖励项，以促使模型生成更为简洁的推理路径。

然而，实际操作中面临显著困难：若加重惩罚力度，模型倾向于省略必要的推理步骤，导致性能显著下降；若减轻惩罚力度，冗余推理依旧存在，效率难以提升。因此，推理效率与性能之间难以实现有效平衡。

在这篇 ICLR 2026 的 Oral 论文中，来自复旦大学、上海交通大学和上海人工智能实验室的研究团队首次从理论层面系统揭示了「长度惩罚」策略的根本局限性，并基于此提出了一套全新的训练框架 DECS，在五项域内基准和两项域外基准测试中，均实现了推理长度减少超过 50% 的显著成效，同时模型准确率不降反升。

主题：性能|上海交通大学