ACL 2026|不训练LLM也能支持未见语言问答?中科院计算所团队让多语言能力「外挂式」加载
一个直观的解释是训练数据不足,但更本质的问题在于表示空间不匹配。已有研究表明,LLM 已经在统一的语义空间中编码了丰富的跨语言知识,并且在处理多语言文本时会专门「经过」这个统一语义空间(如英语表示空间)。这意味着, LLM 的多语言瓶颈不在缺乏知识,而是难以将已有的知识正确映射到多语言表示空间中 。
与此同时,多语言神经机器翻译(NMT)模型在跨语言表示建模方面表现出色。这些 NMT 模型通过 encoder-decoder 架构构建了一个统一的跨语言语义空间,实现上百种语言之间稳定的语义转换。这启发我们: 能否将 LLM 的知识处理能力和多语言 NMT 模型的多语言能力组合,实现优势互补?
基于这一思路, 中国科学院计算技术研究所 NLP 团队 提出了一种新的多语言扩展范式 XBridge:组合 LLM 以英文为中心的通用能力,以及现有多语言 NMT 模型的多语言理解和生成能力,实现二者的能力互补,组合成一个多语言通用模型。换言之, 将多语言理解和生成卸载到外部 NMT 模型,LLM 进行以英文为中心的通用知识处理 。
论文:https://arxiv.org/abs/2603.17512
代码:https://github.com/ictnlp/XBridge
模型:https://huggingface.co/collections/ICTNLP/xbridge
该成果已被 ACL 2026 主会接收。
XBridge:模型组合的多语言扩展方案
XBridge 的核心思想是,将多语言能力卸载到 NMT 模型,同时保留 LLM 作为知识处理和推理的核心。
1. 模型架构
XBridge 采用 encoder-LLM-decoder 三段式架构,模块之间用 MLP 架构的轻量映射层连接:
NMT encoder :将多语言输入映射到共享语义空间。
LLM :以英语为中心的知识处理和推理核心。
NMT decoder :生成目标语言输出。
直观来看,多语言输入首先被 encoder 编码成共享语义表示,再由 LLM 进行知识处理和推理,最后 decoder 映射到目标语言输出,实现完整的多语言「 理解 - 处理 - 生成 」闭环。
2. 最优运输对齐
由于不同模型之间的表示空间天然不一致,例如 token 粒度上严重错位,单纯利用 MLP 进行跨模型表示映射难以实现语义一致的转换。为解决这一问题,我们引入最优运输(Optimal Transport, OT)对齐目标,自适应地学习 token 粒度的软匹配,从而在不同长度、不同分词方式的异构表示空间之间建立细粒度的语义对齐关系,实现稳定的语义转换和高质量的多语言生成。
3. 三阶段训练策略
为在不同模型之间建立稳定对齐,XBridge 设计三阶段训练策略, LLM 全程无需训练 :
跨模型对齐阶段:学习 encoder-LLM-decoder 之间的基础语义映射关系。
编码器适配阶段:让 LLM 学会利用 encoder 表示完成下游任务。
解码器适配阶段:进一步提升 decoder 多语言生成质量。
分阶段的训练设计能够有效避免不同优化目标之间的冲突,使模型能够逐步建立稳定的跨模型映射,并适配下游任务。
实验结果:
不训练 LLM 即可支持高质量未见语言问答
1. 多语言能力成功卸载到 NMT 模型
在 FLORES-101 翻译任务上,XBridge 显著提升了 LLM 在低资源语言或未见语言(如孟加拉语、斯瓦西里语等)上的理解和生成能力,性能接近或超越外部 NMT 模型。这表明 LLM 的多语言能力是可以卸载到外部 NMT 模型的。
主题:多语言能力