专访火山引擎谭待:模型好对MaaS来说是最重要的事,豆包2.1算「上牌桌」了
MaaS生意如何才能一直赢下去?
文丨 邓咏仪
编辑丨 张雨 忻
过去三年,火山引擎总裁谭待给团队定MaaS(模型即服务)营收目标的过程,也重复了三次:年初,定一个很高的目标,团队都觉得太难了,完不成;到了年中,“居然完成的差不多了”,随后目标再度上调。
2026年初,字节的视频模型Seedance 2.0让火山引擎迎来了一场漂亮的开门红。作为云市场的后来者,火山引擎乘着AI的风,实现了让行业意想不到的增长。
“两年前我就和大家说MaaS是个大生意,当时你们都不信。”谭待对 智能涌现 说。
从2025年下半年开始,Coding和视频模型陆续解锁了商业化生产的场景,这让大家发现,现阶段,模型的能力边界依旧难以预测, 顶尖模型是MaaS服务当下颇为核心的增长引擎。
在6月23日的火山引擎Force大会上,字节新一代旗舰模型豆包大模型2.1 Pro登场。这也代表着字节在视频生成之外,模型侧终于补上了Coding的拼图。
谭待对豆包大模型2.1 Pro的定义是,在Coding和Agent能力方面,“终于可以上桌了”。在知名编程评测Terminal Bench上,豆包大模型2.1 Pro已经能与Claude Opus 4.7基本持平,在长程任务,复杂任务上都表现优秀,达到可用门槛。
这是火山更在意的市场。Coding/Agent能力的进步,意味着模型能进入更多企业、个人的核心生产环节。换句话说,也能创造更多商业价值。
除了旗舰模型,火山还带来了一系列模型更新,包括Seedance 2.0 4K版、图像生成模型Seedream 5.0 Pro,豆包语音生成模型1.0,以及即将在7月发布的Seedance 2.5。
“视频生成模型其实是世界模型的其中一种实现方案,并且目前来看,是一种比较成熟的,可以通过无监督的方式进行大规模扩展的技术方案。”谭待提到,Seedance模型,因为表现出对物理世界精准的还原与理解,这也使得高质量的视觉数据合成更可行,加速了具身智能、无人驾驶等等领域的研究进展。
2024年,我们访谈谭待时,他认为大模型才刚到“大哥大”时代;两年后的今天,已经快进到了功能机——大模型不再是少数人的玩具,而是真实地进入到了更多人的生活和工作中。
目前,火山在MaaS市场已经做到行业头部水平。最新的数据是,相较2025年底,火山的日均Token消耗量又提升了50%,达到180万亿,相比两年前增长超过1500倍;“万亿俱乐部”(累计Token消耗达到万亿量级)的客户数也实现翻倍,超过200家。
谭待说,随着这次发布的模型,以及今年还有可能发布的模型,火山今年的营收目标已经上调。
这背后是模型的定价逻辑有所变化。2024年,火山曾经是最早让大模型降到“地板价”的厂商,但这次大会上,他们不再谈及这点。
“2024年之所以降价,是因为所有模型能做的就是Chatbot,模型就值那个价。”他对智能涌现表示。但如今,模型已经能够进入到核心生产环节。
这也引出了一个更大的问题:当大模型真正进入到更多行业的核心生产环节,AI究竟会给云行业带来什么变化?
2024年底,有人曾经问谭待:如果卖API就能挣钱,为什么还要做云?后者曾经被认为是长坡厚雪的好生意,但经过十多年发展,在国内也已经卷成红海。
在谭待看来,这个问题本身就不成立。MaaS和云从来不是对立关系——未来的云,更可能是用Agent去调度IaaS、PaaS、SaaS,传统云不会消失,而是会变成AI云的一部分。“基于模型和Agent构建的新负载,可能是传统云的10倍、20倍大。”
谭待也反驳了“MaaS服务没有忠诚度”的观点。“云计算早期卖主机的时候也没有粘性,”他说,“现在大家对AI用得还比较浅,等模型真正进入一家企业的核心生产系统,耦合性就大了。”
很显然,当下无论是火山还是其他云厂商,都把AI当作最重要的、甚至唯一的增长引擎。谭待觉得这是理所当然的:“如果回到2012年字节成立那一年,你会在那个时间点大做PC搜索吗?”
而接下来留给火山的问题则是:要如何在MaaS市场中一直赢下去?
谭待对此还没有一个完整的答案,但有一件事是确认的,也是难度最大的,那就是: 要让模型长期保持领先。
模型终于真正进入了核心生产环节
智能涌现:过去一年,火山增长得很快,核心驱动力来自哪里?
谭待: 本质是因为模型解锁了真正的生产级场景,进入了核心生产环节。越是有挑战、有价值的生产力场景或环节,解锁之后带来的价值就越大。
一条主线是视频生成,Seedance是全球第一个真正解锁了商业化生产场景的模型。
另外一条主线是LLM/Agent,生产级的解锁是去年Claude Opus 4.6出来之后做到的。Cursor有个分析:Agent自动完成代码和点Tab补全代码这两种模式的比例,在Claude Opus 4.6出来之前,点Tab补全的比例是更高的,但在那之后,就发生了逆转。说明4.6之后,模型的能力有了很大提升,能真正用在生产级的Coding和Agent场景上了。
智能涌现:怎么判断Seedance 2.0真的做到了商业化生产?
谭待: Seedance 2.0出来之前,大多数视频模型都是用来生产些UGC、PGC的娱乐视频,比较难应用到严肃创作场景,比如电影、电视剧、广告。
我们从用户的用量情况里也可以看到这个变化:以前,视频生成模型的用量是周末大于工作日的,跟很多娱乐类的C端产品一样。但Seedance 2.0出来之后就不是这样了,它的工作日负载会比周末大两倍以上,说明大家真的是用它在工作。
视频生成也是通往世界模型的路径之一,在实体产业中有很大的应用潜力。Seedance已在具身智能、工业制造、智能驾驶等领域落地,为数据合成、场景仿真、流程演示等业务需求提供新的工具能力。
智能涌现:Seedance 2.0出来前,你们内部预料到了会大爆吗?
谭待: 也不算大爆吧。我们本来还定了一个更激进的目标呢,但现在看起来完成还是有挑战的。
智能涌现:Seedance 2.0为什么能做到这么好的效果?
谭待: 它是我们综合能力的体现。你要把视频生成做好,需要有比较好的语言模型作为基础,并且图片生成、以及VLM(视频理解模型)的能力也要够强。
Seedance 2.0做得好,可以认为它依托了豆包本身的能力。这是我们相比单纯做视频模型的垂直公司的一个重要优势。
还有一个点是,中国的内容创作领域在全球来看都是很活跃的。中国最早做出最好的视频模型,跟这有关系。
智能涌现:一些市场声音觉得视频生成领域的战争已经告一段落了,字节占据了统治级地位,你怎么看?
谭待: 还没到那个阶段。整个AI在视频生成上的渗透率其实还非常低。
现在外界过多关注了Seedance的短期收入,忽视了Seedance的技术价值。视频生成是一种比较成熟的,可以通过无监督的方式进行大规模扩展的技术方案。Seedance模型表现出对物理世界精准的还原与理解,这也使得高质量的视觉数据合成更可行,加速了具身智能、无人驾驶等等领域的研究进展,在实体产业中会有非常大的应用潜力。
而且AI如果真的创造价值,不是要替代过去,而是让这个行业整体变得更大。
智能涌现:这次Force大会,你们也发了新的旗舰模型豆包大模型2.1,你们怎么定义这个模型?
谭待: 我觉得豆包大模型2.1 Pro已经达到了可用的标准,可以对标Claude Opus 4.6的水平,进入到了Agent的可用门槛。
豆包大模型2.1也标志着我们在Coding领域真正上牌桌了。这是很重要的事,国内真上牌桌的还没有几个。
智能涌现:你们对“可用”的定义是?
谭待: 有几个特点:
第一,Coding能力很强。在数字世界里Coding能力强意味着你能灵活地调用脚本、调用工具,泛化能力也很强。
第二,能完成复杂的通用Agent任务。这意味着要能更好地调用工具,有长程任务的能力,跟记忆有好的结合,能适配各种Harness和框架,还要有很好的VLM能力——很多输入是要通过视觉处理的,比如Computer Use。
第三,具备可规模化应用的能力。如果模型很好但价格太贵,是不行的;延迟太高,比如Throughput(吞吐量)20多毫秒也不行;模型还要能大规模支持更多服务。
豆包大模型2.1在这些方面都做得非常不错。Coding能力跟Claude Opus 4.6比的话,也能超过。规模化应用方面,豆包App刚上的任务模式,就是用豆包大模型2.1来做的。
智能涌现:在Coding场景,你觉得中国的模型什么时候才算是真正追赶上来了?
谭待: 大概会在今年Q2的时候。虽然很多模型以前都说我要比肩谁谁谁,但光说是没用的。你如果真的追上了、甚至超越了,大家会为你付费。看ARR就能知道你到底有没有做到。
智能涌现:和视频相比,为什么国内在Coding场景上速度整体要慢一些?
谭待: 首先,全球范围来看LLM的竞争都是更激烈的。第二,我们起步还是晚的,Anthropic和OpenAI起步早非常多,Coding这个方向也是他们最早定义并且发力的。我们起步晚,现在整体进度比人家晚也正常,它本来就是很难的一件事。
智能涌现:原来Seed还有单独的Coding模型SeedCode,现在还会做吗?
谭待: 豆包大模型2.1发布后就没有了,Coding和Agent能力都合到主版里面去了。
模型现在迭代太快了,我们不想等一两个月才发一次版,所以现在出了一个新的系列叫Seed Evolving,它在豆包大模型2.1的基础上,每一两周就会更新一次。
智能涌现:这是主要面向开发者群体的模型吗,围绕Coding和Agent方向做优化?
谭待: 不只是开发者。有的企业追求模型的稳定表现,不要有惊吓也不需要惊喜,那他们直接用豆包大模型2.1就行。但还有很多人就希望始终能用到最新最智能的版本,Seed Evolving就是来满足他们的。但它不是小白鼠版本,会有很严格的评估。
智能涌现:你们现在两条生产级场景的主线都解锁了,那LLM和视频生成,你觉得目前哪个更重要?
谭待: 站在我的角度,LLM其实更重要一些,它能创造的价值空间更大。虽然我们的现状是Seedance卖的多一点,但我希望后面LLM能成为大头。
主题:模型|谭待|字节|豆包大模型2.1Pro