登录

Taalas:AI算力赛道的“小众破局者”?


速读:2026年2月,其首款专用AI芯片HC1曝光,一个极具争议的技术路线浮出水面:在AI算力普遍短缺、英伟达垄断格局固化的今天。 其推出的HC1芯片,在推理速度上实现了数量级的突破,传闻其表现甚至让英伟达创始人黄仁勋连夜召集团队开会讨论。 简单来说,模型的权重不再是存储在存储器里的数据,而是变成了芯片物理结构的一部分。 模型权重被永久蚀刻在掩模ROM中,无法通过软件更新更改。 因此仅适配固定模型场景(如政务、客服、工业控制)。
2026年03月03日 17:

《引线》玄远

近日,加拿大一家神秘的AI芯片初创公司Taalas,在业界抛出了一枚重磅炸弹。其推出的HC1芯片,在推理速度上实现了数量级的突破,传闻其表现甚至让英伟达创始人黄仁勋连夜召集团队开会讨论。

Taalas成立于2023年,由前AMD、英伟达资深架构师创立,累计融资已超2亿美元。2026年2月,其首款专用AI芯片HC1曝光,一个极具争议的技术路线浮出水面:在AI算力普遍短缺、英伟达垄断格局固化的今天,Taalas试图用“把大模型写死在硅片上”的极端方式,挑战通用GPU的统治地位。

这究竟是算力革命的前奏,还是专用芯片的死胡同?

技术拆解:把模型“硬化”在硅片上

Taalas的核心技术路线可以概括为“模型即芯片”。这与传统GPU架构有着本质区别。

传统GPU采用的是“计算+存储”分离的架构,数据需要在计算单元和HBM(高带宽内存)之间频繁搬运,形成了著名的“内存墙”,大量能耗和时间浪费在数据搬运上。 而Taalas的HC1芯片,采用了台积电6nm工艺,面积815平方毫米。最关键的是,它抛弃了外部HBM显存。

这是如何做到的? Taalas将特定大模型(如Llama3.18B)的权重和逻辑,通过“硬连线”(Hardwired)的方式,直接转化为硅片顶层的金属连线。 简单来说,模型的权重不再是存储在存储器里的数据,而是变成了芯片物理结构的一部分。存储和计算合二为一,彻底打通了内存墙。

据公开报道,整个HC1芯片的研发仅花费了 约3000万美元。 对比行业基准——仅设计一款7nm芯片的平均成本就高达2.17亿美元——这个数字在动辄数亿甚至十亿美元起的芯片研发领域,确实堪称“零头”,展现了其方法论在成本控制上的巨大潜力。

性能对比与场景落地

若数据属实,TaalasHC1在特定任务上展现出了革命性的性能表现。

首先是推理速度。HC1为Llama3.18B模型定制,吞吐量超17,000tokens/s,远超通用GPU(如H200、B200)。其架构优势使其速度达同类方案的8倍以上。

其次是成本与能效。HC1单芯片成本为传统GPU的1/20,功耗仅200-250W,能效比传统GPU高1000倍。

最后是集群能力。有宣传称,在模拟运行超大规模模型(如DeepSeekR1671B)时,30颗HC1集群性能可对标数百颗B200。

HC1的极致速度是以牺牲灵活性为代价的。这决定了它无法成为通用算力,只能在特定场景落地。 HC1的“一模型一芯片”特性是其主要约束。模型权重被永久蚀刻在掩模ROM中,无法通过软件更新更改。因此仅适配固定模型场景(如政务、客服、工业控制)。

在自动驾驶、工业机器人、高频量化交易等领域,毫秒级的延迟都至关重要。HC1的低延迟特性在这里具有天然优势。对于不能联网、需要离线推理的军工场景,或者对数据安全要求极高的边缘计算节点,HC1这种无需加载外部权重、开机即用的特性,反而成了安全优势。

行业影响:通用与专用的路径分野

TaalasHC1芯片的发布,引发AI芯片路线的深层思考。其“模型即芯片”设计,以极致专用化挑战通用GPU的主导地位。

1.性能与精度的权衡

HC1通过3-bit量化、存算一体设计,实现极高速推理(17ktokens/s)与低功耗,但牺牲了灵活性与精度。量化导致模型精度损失,引发对“速度与错误率”的争议。

2.商业化与模型迭代风险

AI模型迭代快(4个月/模型),专用芯片可能在3-5年寿命内过时,企业需承担硬件贬值风险。Taalas需快速适配模型更新(如2个月掩模更换)。

3.未来格局:双轨并存

通用路线(英伟达):灵活适配训练与多场景,护城河稳固。

专用路线(Taalas):极致性能与成本,适用于固定场景推理。

市场可能形成“通用训练+专用推理”的双轨制。

Taalas的HC1芯片,像是一条闯入GPU垄断海域的鲶鱼。它用24人的团队和极端的“模型即芯片”架构,证明了专用化路线在特定场景下的巨大潜力。企业需权衡“通用弹性”与“专用效率”,AI芯片的分裂与融合正在加速。(思维财经出品)■

主题:HC1|模型|英伟达|推理速度|在硅片上