专访火山引擎谭待：模型好对MaaS来说是最重要的事，豆包2.1算「上牌桌」了

速读：豆包语音生成模型1.0，以及即将在7月发布的Seedance 2.5。在6月23日的火山引擎Force大会上，字节新一代旗舰模型豆包大模型2.1Pro登场。视频生成是一种比较成熟的，可以通过无监督的方式进行大规模扩展的技术方案。从2025年下半年开始，Coding和视频模型陆续解锁了商业化生产的场景，这让大家发现，现阶段，模型的能力边界依旧难以预测，顶尖模型是MaaS服务当下颇为核心的增长引擎。但如今，模型已经能够进入到核心生产环节。

2026年06月23日 21:3

MaaS生意如何才能一直赢下去？

文丨邓咏仪

编辑丨张雨忻

过去三年，火山引擎总裁谭待给团队定MaaS（模型即服务）营收目标的过程，也重复了三次：年初，定一个很高的目标，团队都觉得太难了，完不成；到了年中，“居然完成的差不多了”，随后目标再度上调。

2026年初，字节的视频模型Seedance 2.0让火山引擎迎来了一场漂亮的开门红。作为云市场的后来者，火山引擎乘着AI的风，实现了让行业意想不到的增长。

“两年前我就和大家说MaaS是个大生意，当时你们都不信。”谭待对智能涌现说。

从2025年下半年开始，Coding和视频模型陆续解锁了商业化生产的场景，这让大家发现，现阶段，模型的能力边界依旧难以预测，顶尖模型是MaaS服务当下颇为核心的增长引擎。

在6月23日的火山引擎Force大会上，字节新一代旗舰模型豆包大模型2.1 Pro登场。这也代表着字节在视频生成之外，模型侧终于补上了Coding的拼图。

谭待对豆包大模型2.1 Pro的定义是，在Coding和Agent能力方面，“终于可以上桌了”。在知名编程评测Terminal Bench上，豆包大模型2.1 Pro已经能与Claude Opus 4.7基本持平，在长程任务，复杂任务上都表现优秀，达到可用门槛。

这是火山更在意的市场。Coding/Agent能力的进步，意味着模型能进入更多企业、个人的核心生产环节。换句话说，也能创造更多商业价值。

除了旗舰模型，火山还带来了一系列模型更新，包括Seedance 2.0 4K版、图像生成模型Seedream 5.0 Pro，豆包语音生成模型1.0，以及即将在7月发布的Seedance 2.5。

“视频生成模型其实是世界模型的其中一种实现方案，并且目前来看，是一种比较成熟的，可以通过无监督的方式进行大规模扩展的技术方案。”谭待提到，Seedance模型，因为表现出对物理世界精准的还原与理解，这也使得高质量的视觉数据合成更可行，加速了具身智能、无人驾驶等等领域的研究进展。

2024年，我们访谈谭待时，他认为大模型才刚到“大哥大”时代；两年后的今天，已经快进到了功能机——大模型不再是少数人的玩具，而是真实地进入到了更多人的生活和工作中。

目前，火山在MaaS市场已经做到行业头部水平。最新的数据是，相较2025年底，火山的日均Token消耗量又提升了50%，达到180万亿，相比两年前增长超过1500倍；“万亿俱乐部”（累计Token消耗达到万亿量级）的客户数也实现翻倍，超过200家。

谭待说，随着这次发布的模型，以及今年还有可能发布的模型，火山今年的营收目标已经上调。

这背后是模型的定价逻辑有所变化。2024年，火山曾经是最早让大模型降到“地板价”的厂商，但这次大会上，他们不再谈及这点。

“2024年之所以降价，是因为所有模型能做的就是Chatbot，模型就值那个价。”他对智能涌现表示。但如今，模型已经能够进入到核心生产环节。

这也引出了一个更大的问题：当大模型真正进入到更多行业的核心生产环节，AI究竟会给云行业带来什么变化？

2024年底，有人曾经问谭待：如果卖API就能挣钱，为什么还要做云？后者曾经被认为是长坡厚雪的好生意，但经过十多年发展，在国内也已经卷成红海。

在谭待看来，这个问题本身就不成立。MaaS和云从来不是对立关系——未来的云，更可能是用Agent去调度IaaS、PaaS、SaaS，传统云不会消失，而是会变成AI云的一部分。“基于模型和Agent构建的新负载，可能是传统云的10倍、20倍大。”

谭待也反驳了“MaaS服务没有忠诚度”的观点。“云计算早期卖主机的时候也没有粘性，”他说，“现在大家对AI用得还比较浅，等模型真正进入一家企业的核心生产系统，耦合性就大了。”

很显然，当下无论是火山还是其他云厂商，都把AI当作最重要的、甚至唯一的增长引擎。谭待觉得这是理所当然的：“如果回到2012年字节成立那一年，你会在那个时间点大做PC搜索吗？”

而接下来留给火山的问题则是：要如何在MaaS市场中一直赢下去？

谭待对此还没有一个完整的答案，但有一件事是确认的，也是难度最大的，那就是：要让模型长期保持领先。

模型终于真正进入了核心生产环节

智能涌现：过去一年，火山增长得很快，核心驱动力来自哪里？

谭待：本质是因为模型解锁了真正的生产级场景，进入了核心生产环节。越是有挑战、有价值的生产力场景或环节，解锁之后带来的价值就越大。

一条主线是视频生成，Seedance是全球第一个真正解锁了商业化生产场景的模型。

另外一条主线是LLM/Agent，生产级的解锁是去年Claude Opus 4.6出来之后做到的。Cursor有个分析：Agent自动完成代码和点Tab补全代码这两种模式的比例，在Claude Opus 4.6出来之前，点Tab补全的比例是更高的，但在那之后，就发生了逆转。说明4.6之后，模型的能力有了很大提升，能真正用在生产级的Coding和Agent场景上了。

智能涌现：怎么判断Seedance 2.0真的做到了商业化生产？

谭待： Seedance 2.0出来之前，大多数视频模型都是用来生产些UGC、PGC的娱乐视频，比较难应用到严肃创作场景，比如电影、电视剧、广告。

我们从用户的用量情况里也可以看到这个变化：以前，视频生成模型的用量是周末大于工作日的，跟很多娱乐类的C端产品一样。但Seedance 2.0出来之后就不是这样了，它的工作日负载会比周末大两倍以上，说明大家真的是用它在工作。

视频生成也是通往世界模型的路径之一，在实体产业中有很大的应用潜力。Seedance已在具身智能、工业制造、智能驾驶等领域落地，为数据合成、场景仿真、流程演示等业务需求提供新的工具能力。

智能涌现：Seedance 2.0出来前，你们内部预料到了会大爆吗？

谭待：也不算大爆吧。我们本来还定了一个更激进的目标呢，但现在看起来完成还是有挑战的。

智能涌现：Seedance 2.0为什么能做到这么好的效果？

谭待：它是我们综合能力的体现。你要把视频生成做好，需要有比较好的语言模型作为基础，并且图片生成、以及VLM（视频理解模型）的能力也要够强。

Seedance 2.0做得好，可以认为它依托了豆包本身的能力。这是我们相比单纯做视频模型的垂直公司的一个重要优势。

还有一个点是，中国的内容创作领域在全球来看都是很活跃的。中国最早做出最好的视频模型，跟这有关系。

智能涌现：一些市场声音觉得视频生成领域的战争已经告一段落了，字节占据了统治级地位，你怎么看？

谭待：还没到那个阶段。整个AI在视频生成上的渗透率其实还非常低。

现在外界过多关注了Seedance的短期收入，忽视了Seedance的技术价值。视频生成是一种比较成熟的，可以通过无监督的方式进行大规模扩展的技术方案。Seedance模型表现出对物理世界精准的还原与理解，这也使得高质量的视觉数据合成更可行，加速了具身智能、无人驾驶等等领域的研究进展，在实体产业中会有非常大的应用潜力。

而且AI如果真的创造价值，不是要替代过去，而是让这个行业整体变得更大。

智能涌现：这次Force大会，你们也发了新的旗舰模型豆包大模型2.1，你们怎么定义这个模型？

谭待：我觉得豆包大模型2.1 Pro已经达到了可用的标准，可以对标Claude Opus 4.6的水平，进入到了Agent的可用门槛。

豆包大模型2.1也标志着我们在Coding领域真正上牌桌了。这是很重要的事，国内真上牌桌的还没有几个。

智能涌现：你们对“可用”的定义是？

谭待：有几个特点：

第一，Coding能力很强。在数字世界里Coding能力强意味着你能灵活地调用脚本、调用工具，泛化能力也很强。

第二，能完成复杂的通用Agent任务。这意味着要能更好地调用工具，有长程任务的能力，跟记忆有好的结合，能适配各种Harness和框架，还要有很好的VLM能力——很多输入是要通过视觉处理的，比如Computer Use。

第三，具备可规模化应用的能力。如果模型很好但价格太贵，是不行的；延迟太高，比如Throughput（吞吐量）20多毫秒也不行；模型还要能大规模支持更多服务。

豆包大模型2.1在这些方面都做得非常不错。Coding能力跟Claude Opus 4.6比的话，也能超过。规模化应用方面，豆包App刚上的任务模式，就是用豆包大模型2.1来做的。

智能涌现：在Coding场景，你觉得中国的模型什么时候才算是真正追赶上来了？

谭待：大概会在今年Q2的时候。虽然很多模型以前都说我要比肩谁谁谁，但光说是没用的。你如果真的追上了、甚至超越了，大家会为你付费。看ARR就能知道你到底有没有做到。

智能涌现：和视频相比，为什么国内在Coding场景上速度整体要慢一些？

谭待：首先，全球范围来看LLM的竞争都是更激烈的。第二，我们起步还是晚的，Anthropic和OpenAI起步早非常多，Coding这个方向也是他们最早定义并且发力的。我们起步晚，现在整体进度比人家晚也正常，它本来就是很难的一件事。

智能涌现：原来Seed还有单独的Coding模型SeedCode，现在还会做吗？

谭待：豆包大模型2.1发布后就没有了，Coding和Agent能力都合到主版里面去了。

模型现在迭代太快了，我们不想等一两个月才发一次版，所以现在出了一个新的系列叫Seed Evolving，它在豆包大模型2.1的基础上，每一两周就会更新一次。

智能涌现：这是主要面向开发者群体的模型吗，围绕Coding和Agent方向做优化？

谭待：不只是开发者。有的企业追求模型的稳定表现，不要有惊吓也不需要惊喜，那他们直接用豆包大模型2.1就行。但还有很多人就希望始终能用到最新最智能的版本，Seed Evolving就是来满足他们的。但它不是小白鼠版本，会有很严格的评估。

智能涌现：你们现在两条生产级场景的主线都解锁了，那LLM和视频生成，你觉得目前哪个更重要？

谭待：站在我的角度，LLM其实更重要一些，它能创造的价值空间更大。虽然我们的现状是Seedance卖的多一点，但我希望后面LLM能成为大头。

主题：模型|谭待|字节|豆包大模型2.1Pro