生成式推理再排序，可能会是LLM 4 RecSys的新突破口吗？

速读：正如近些年大语言模型，尤其是推理模型在通用任务上的优异性能所揭示得，让推荐系统先思考再做出决定或许可以再次突破现有框架的性能上限；论文通过监督微调（SFT）和强化学习（RL）来赋予通用推理模型在序列推荐任务上的推理能力。论文的核心想法是将大体量的LLM（比如32B模型）的推理能力蒸馏给小体量的LLM：即大LLM产生高质量的推理路径，再让小LLM去学习以增强其在推荐场景下的推理能力。推理路径的生成。推理路径（Reasoningtrace）的生成是本文的核心技术之一。

2026年04月08日 09:35

深度学习成为推荐系统的标准范式已经有十年左右的历史。 RNN/Transformer/GNN 等模型在用户交互数据上的性能已经被开发得非常接近饱和。正如近些年大语言模型，尤其是推理模型在通用任务上的优异性能所揭示得，让推荐系统先思考再做出决定或许可以再次突破现有框架的性能上限；同时，还能为推荐的结果提供一定的可解释性。

论文通过监督微调（ SFT ）和强化学习（ RL ）来赋予通用推理模型在序列推荐任务上的推理能力。提出的训练策略最终超过了 LLM4Recsys 标杆， OneRec-Think ；提升了约 2.4%Recall@5 和约 1.3%NDCG@5 。

●论文标题：

Generative Reasoning Re-ranker

●论文地址：

https://arxiv.org/pdf/2602.07774

中期训练，内化物品的语意 ID

语意 ID （ semantic ID ， SID ）已经成为基于序列模型的推荐系统的标准技术之一，它的核心想法是通过多层次的聚类来赋予物品从粗到细粒度的标签。常用的模型一般有 Residual-Quantized Variational Autoencoder （ RQ-VAE ）和 RQ-Kmeans ；这篇论文使用的是 RQ-VAE ，并且基于常规的对比学习损失函数。同时，为了防止码本坍缩，即有多个物品会被同时映射到一个 SID 的情况，本文采用了成熟的处理方案，用 RQ-Kmeans 先做初始化，结合 EMA 平滑更新字典，重置死码本，加入多样性损失函数，并且对最后一至两位 SID 赋予随机整数。

本文的中期训练采用的策略和 OneRec-Think 保持一致，将生成的 SID 混入自然语言组成的物品描述、物品预测等一系列任务中，去最小化 next token prediction loss 以优化 SID 的 embedding 来内化物品的本身语意。

推理路径的生成

推理路径（ Reasoning trace ）的生成是本文的核心技术之一。预训练的推理模型并不具有（很强的）对物品序列的推理和解释能力，尤其是考虑到在现实场景中需要实际部署时受限于延迟限制， LLM 的体量有限，例如仅仅能支持最大 8B 。

论文的核心想法是将大体量的 LLM （比如 32B 模型）的推理能力蒸馏给小体量的 LLM ：即大 LLM 产生高质量的推理路径，再让小 LLM 去学习以增强其在推荐场景下的推理能力。目标采样（ target sampling ）和拒绝采样（ reject sampling ）两种技术被使用了：

主题：推理|论文|生成|推理路径|推荐系统