登录

大模型步入「推理Scaling」时代,SambaNova如何挑战英伟达的霸主地位?


速读:领域内的研究者和从业者认识到,一方面,更多的计算资源应该投入到推理阶段,另一方面,优化硬件配置以提升大模型推理的效率将是下一阶段的攻关重点。 GPU最初设计用于图形渲染,由于其并行处理能力,过去数年一直是以海量数据集训练大模型的热门选择。 对于利用HBM来推理的芯片来说,HBM的利用率是推理速度的关键,越快从内存中访问数据,就越能缩短处理时间。 数倍于GPU推理性能。
2024年10月18日 12:07

OpenAI o1 的发布,再次给 AI 领域带来了一场地震。

o1 能像人类一样「思考」复杂问题,拥有优秀的通用推理能力。在未经专门训练的情况下,o1 能够直接拿下数学奥赛金牌,甚至能在博士级别的科学问答环节上超越人类专家。

在性能跃升之外,更重要的是,它揭示了大模型进化范式的转变:通过更多的强化学习(训练时计算)和更多的推理(Test-Time 计算),模型可以获得更强大的性能。

这又一次让我们想起 Richard Sutton 在《The Bitter Lesson》中所说的,利用计算能力的一般方法最终是最有效的方法。这类方法会随着算力的增加而继续扩展,搜索和学习似乎正是两种以此方式随意扩展的方法。连山姆・奥特曼也坦言,在未来的一段时间里,新范式进化的曲线会非常陡峭。

从「训练 Scaling」到「推理 Scaling」的范式转变 ,也引发了关于计算资源分配和硬件选择的重新思考。

领域内的研究者和从业者认识到,一方面,更多的计算资源应该投入到推理阶段,另一方面,优化硬件配置以提升大模型推理的效率将是下一阶段的攻关重点。而大模型要进行推理 Scaling,实际上比训练 Scaling 对芯片并行处理能力的要求更高。

GPU 最初设计用于图形渲染,由于其并行处理能力,过去数年一直是以海量数据集训练大模型的热门选择。虽然 GPU 非常适合实现神经网络的训练工作,但在全新的范式下,由于其在延迟、功耗等方面表现不佳, 并不是进行大规模推理的最好选择。

在 GPU 之外,什么是大模型推理的更好选择?现在的 AI 芯片有各种流派:ASIC、FPGA、DSP、Neuromorphic Chip,以及大量 DSA (Domain-specific architectures)芯片。其中, 以 SambaNova RDU(Reconfigurable Dataflow Unit)为代表的动态可重构数据流(Dataflow)架构的芯片,能够通过并行处理和高效数据移动来优化性能和效率,近年越来越被认为是一个重要的发展方向。

数倍于 GPU 推理性能

来自 SambaNova 最新一代 RDU SN40L

近日的芯片盛会 Hot Chips 上,围绕大模型的议题比以往任何一届都更加活跃。SambaNova 的最新一代 RDU 产品 SN40L 也在这场大会上引发持续讨论。大家也充分了解到,Sambanova 如何实现大模型的快速推理以及提供 GPU 之外的更优方案。

我们知道,大模型在推理时会逐步生成输出序列的 Token,每生成每一个 token 都会需要把模型的参数从 HBM(High Bandwidth Memory)搬运到片上进行计算。对于利用 HBM 来推理的芯片来说,HBM 的利用率是推理速度的关键,越快从内存中访问数据,就越能缩短处理时间。

SambaNova 的 RDU 既有 GPU 10 倍以上的片上分布 SRAM,也有适用于需要快速数据传输的大规模计算任务的 HBM。其架构可以自动做到极致的算子融合,达到 90% 以上的 HBM 利用率,使得 RDU 对 GPU 有了 2-4 倍的性能优势。

当前的 AI 推理平台中,SambaNova 是唯一能在 Llama 3.1 405B 上提供每秒超过 100 个 Token 推理速度的平台。

主题:推理|大模型|芯片|性能