MiniMax不认马嘉祺？稀宇科技公布大模型“失语”原因：特定词元后训练不足导致

2026年05月09日 11:15

IT之家 5 月 9 日消息，在人工智能领域，一个大模型能够准确“复述”特定名词，看似是一项基础能力，却也可能因训练机制的细微偏差而“失灵”。

稀宇科技（MiniMax）今日发布官方技术报告，就旗下 M2 系列模型无法正确输出“马嘉祺”等特定人名一事进行了解答，并宣布已通过全词表合成数据覆盖完成性能修复。

据介绍，该问题的核心在于大模型处理文字的“分词器”（Tokenizer）机制。与传统逐字处理不同，大模型在读写文本时会先将文字切分为若干“词元”（Token）。

在 MiniMax 模型的词表中，“马嘉祺”被切分为“马”和“嘉祺”两个词元。其中，作为一个人名整体，“嘉祺”被合并为一个独立的词元。

IT之家注：大模型训练通常分为两个阶段：预训练阶段接触海量互联网文本，让模型掌握广泛词汇；而后训练（即指令微调）阶段则使用精选对话数据来教会模型如何与人交流。

MiniMax 团队排查发现，在其后训练所使用的对话数据中，含有“嘉祺”一词的样本数量极少。这种数据分布上的稀疏，导致“嘉祺”这一词元在后训练阶段几乎没有得到有效训练。

与此同时，大量高频词元（如工具调用标记、编程符号等）在训练中不断更新其向量参数，持续“挤压”“嘉祺”这类低频词元的向量空间，最终将其推离了原本正确的生成概率区域。当模型需要输出这一名字时，只得退而求其次，选择了发音相近的高频词元，例如“佳琪”或“琪琪”。