ACL 2026|不训练LLM也能支持未见语言问答？中科院计算所团队让多语言能力「外挂式」加载

速读：XBridge：模型组合的多语言扩展方案。这启发我们：能否将LLM的知识处理能力和多语言NMT模型的多语言能力组合，实现优势互补？由于不同模型之间的表示空间天然不一致，例如token粒度上严重错位，单纯利用MLP进行跨模型表示映射难以实现语义一致的转换。模型架构。

2026年04月25日 17:3

一个直观的解释是训练数据不足，但更本质的问题在于表示空间不匹配。已有研究表明，LLM 已经在统一的语义空间中编码了丰富的跨语言知识，并且在处理多语言文本时会专门「经过」这个统一语义空间（如英语表示空间）。这意味着， LLM 的多语言瓶颈不在缺乏知识，而是难以将已有的知识正确映射到多语言表示空间中。

与此同时，多语言神经机器翻译（NMT）模型在跨语言表示建模方面表现出色。这些 NMT 模型通过 encoder-decoder 架构构建了一个统一的跨语言语义空间，实现上百种语言之间稳定的语义转换。这启发我们：能否将 LLM 的知识处理能力和多语言 NMT 模型的多语言能力组合，实现优势互补？

基于这一思路，中国科学院计算技术研究所 NLP 团队提出了一种新的多语言扩展范式 XBridge：组合 LLM 以英文为中心的通用能力，以及现有多语言 NMT 模型的多语言理解和生成能力，实现二者的能力互补，组合成一个多语言通用模型。换言之，将多语言理解和生成卸载到外部 NMT 模型，LLM 进行以英文为中心的通用知识处理。

论文：https://arxiv.org/abs/2603.17512

代码：https://github.com/ictnlp/XBridge

模型：https://huggingface.co/collections/ICTNLP/xbridge

该成果已被 ACL 2026 主会接收。

XBridge：模型组合的多语言扩展方案

XBridge 的核心思想是，将多语言能力卸载到 NMT 模型，同时保留 LLM 作为知识处理和推理的核心。

1. 模型架构

XBridge 采用 encoder-LLM-decoder 三段式架构，模块之间用 MLP 架构的轻量映射层连接：

NMT encoder ：将多语言输入映射到共享语义空间。

LLM ：以英语为中心的知识处理和推理核心。

NMT decoder ：生成目标语言输出。

直观来看，多语言输入首先被 encoder 编码成共享语义表示，再由 LLM 进行知识处理和推理，最后 decoder 映射到目标语言输出，实现完整的多语言「理解 - 处理 - 生成」闭环。

2. 最优运输对齐

由于不同模型之间的表示空间天然不一致，例如 token 粒度上严重错位，单纯利用 MLP 进行跨模型表示映射难以实现语义一致的转换。为解决这一问题，我们引入最优运输（Optimal Transport, OT）对齐目标，自适应地学习 token 粒度的软匹配，从而在不同长度、不同分词方式的异构表示空间之间建立细粒度的语义对齐关系，实现稳定的语义转换和高质量的多语言生成。

3. 三阶段训练策略

为在不同模型之间建立稳定对齐，XBridge 设计三阶段训练策略， LLM 全程无需训练：

跨模型对齐阶段：学习 encoder-LLM-decoder 之间的基础语义映射关系。

编码器适配阶段：让 LLM 学会利用 encoder 表示完成下游任务。

解码器适配阶段：进一步提升 decoder 多语言生成质量。

分阶段的训练设计能够有效避免不同优化目标之间的冲突，使模型能够逐步建立稳定的跨模型映射，并适配下游任务。

实验结果：

不训练 LLM 即可支持高质量未见语言问答

1. 多语言能力成功卸载到 NMT 模型

在 FLORES-101 翻译任务上，XBridge 显著提升了 LLM 在低资源语言或未见语言（如孟加拉语、斯瓦西里语等）上的理解和生成能力，性能接近或超越外部 NMT 模型。这表明 LLM 的多语言能力是可以卸载到外部 NMT 模型的。

主题：多语言能力