登录

计算


分类

注意力

对于每一个query,模型会先判断序列中哪些位置值得关注,然后只在这些位置上精确计算注意力。
文章

稠密注意力假设「任意一对token都可能重要」,SSA去除了这一假设,只在真正有信息量的位置上计算注意力,其余部分直接跳过。
文章

成本

上下文长度翻倍,计算成本并不会翻倍,而是变为四倍。
文章

效果

这也意味着,SubQ有望将计算量降低近1000倍,为大语言模型的扩展提供一条不同于传统Transformer堆算力的新路径。
文章