登录

计算

分类

注意力

对于每一个query，模型会先判断序列中哪些位置值得关注，然后只在这些位置上精确计算注意力。

文章

稠密注意力假设「任意一对token都可能重要」，SSA去除了这一假设，只在真正有信息量的位置上计算注意力，其余部分直接跳过。

文章

成本

上下文长度翻倍，计算成本并不会翻倍，而是变为四倍。

文章

效果

这也意味着，SubQ有望将计算量降低近1000倍，为大语言模型的扩展提供一条不同于传统Transformer堆算力的新路径。

文章