登录
更多
已读文章
名词
现象
观点
问题
政要
计算
分类
注意力
对于每一个query,模型会先判断序列中哪些位置值得关注,然后只在这些位置上精确
计算
注意力。
文章
稠密注意力假设「任意一对token都可能重要」,SSA去除了这一假设,只在真正有信息量的位置上
计算
注意力,其余部分直接跳过。
文章
成本
上下文长度翻倍,
计算
成本并不会翻倍,而是变为四倍。
文章
效果
这也意味着,SubQ有望将
计算
量降低近1000倍,为大语言模型的扩展提供一条不同于传统Transformer堆算力的新路径。
文章