上下文
分类
越长
上下文越长、batch越大,KVCache越吃显存,也越吃带宽。
文章
推理
超越TurboQuant,面向长上下文推理的真2-bitKVQuantization算法问世2026年05月29日12:04机器之心Pro本文作者ZhongzhuZhou是TogetherAI的SeniorResearchScientist,悉尼大学博士,研究方向为高效机器学习系统,方向覆盖模型训推算法与系统协同设计,LLM压缩与量化。
文章
直面冲击TurboQuant,提出一个面向长上下文推理服务的真正的2-bitKVCache系统,开盒即用。
文章
上下文
它目前试图避开与单一模型能力直接竞争,而是押注多模型、浏览器上下文和智能体执行的产品能力。
文章
Agent窗格