登录

冯大刚对话火山引擎谭待:1块钱284张图片,但豆包不打算「内卷」


速读:两年后的今天,大模型市场格局发生了天翻地覆的变化。 就在不久前的12月18日,火山引擎也在2024冬季FORCE原动力大会上带来了豆包大模型家族的一系列全新升级。 火山引擎希望帮助企业和开发者更方便、更低门槛地使用大模型技术,促进AI技术普惠,把蛋糕做得更大。 比如今天的第一个问题:我们都知道您在技术领域有着深厚的造诣和丰富的经历,当初是什么契机让您从百度这样的巨头转投字节跳动,并扛起火山引擎开拓企业级市场的重任呢? 我们现在遇到每一个客户,包括董事长、CEO们,我的第一个建议都是让他首先自己先去下载豆包APP,因为负责人和决策者对AI有感知,每天在使用,他才能了解企业哪些环境可以通过大模型优化。
2024年12月20日 21:3

未来10年或者20年,行业将会走向AI云原生。

2024年临近结束,大模型市场依旧热战正酣。

一方面,国内外各大创业公司高额融资新闻频出,AI数据分析公司Databricks更是以单轮超过700亿元人民币的融资目标刷新了全球AI创企的融资纪录,超越OpenAI。

另一方面,以OpenAI发布季为首,全球新模型、新产品也在年底迎来了一波集中更新。就在不久前的12月18日,火山引擎也在2024冬季FORCE原动力大会上带来了豆包大模型家族的一系列全新升级。

举例而言,豆包Pro作为字节最强的大语言模型,本次迎来了大版本的更新升级,综合任务处理能力较5月份提升32%,全面对齐GPT-4o,使用价格仅为后者的1/8。

最新推出的豆包视觉理解模型不仅能精准识别视觉内容,还具备出色的理解和推理能力,可根据图像信息进行复杂的逻辑计算,完成分析图表、处理代码、解答学科问题等任务,并拥有细腻的视觉描述和创作能力。

尤其在本次FORCE大会上,火山引擎宣布,豆包视觉理解模型千tokens输入价格仅为3厘,一元钱就可处理284张720P的图片,比行业价格便宜85%,引发了业内热议。

火山引擎总裁谭待向36氪透露,事实上,即便在这个价格下,火山引擎的毛利其实也非常可观。低价并非是“烧钱补贴”的市场策略,而是通过算法、工程、硬件的联合创新,从底层系统架构到上层应用的共同进步才得以实现。火山引擎希望帮助企业和开发者更方便、更低门槛地使用大模型技术,促进AI技术普惠,把蛋糕做得更大。

根据火山引擎数据,近3个月来,豆包大模型在信息处理场景调用量增长了39倍、客服与销售场景16倍、硬件助手场景13倍、AI工具场景9倍,在B端汽车、金融、教育领域拥有大量合作伙伴,如梅赛德斯-奔驰、广汽集团、华泰证券、招商银行、浙江大学等等。

自2022年11月底ChatGPT推出以来,大模型这把火已经在全球烧了整整两年多。两年后的今天,大模型市场格局发生了天翻地覆的变化,尤其在to B领域,越来越多企业已经摘下了大模型的“滤镜”,转而从真实的落地应用场景、经济价值开始考量。

火山引擎究竟如何通过技术创新降低大模型落地成本?大模型对于云计算产业带来了哪些冲击与机遇?下一个十年,我们将迎来怎样的AI云原生架构?围绕这些备受行业关注的话题,在2024冬季FORCE原动力大会期间,火山引擎总裁谭待与36氪CEO冯大刚进行了一场深入的对话。

以下为对话实录。

过去一年,什么最重要?

冯大刚: 今天我们的提问,虽然核心内容是我们出的,但是也让豆包出了一版,我认为挺有趣的。比如今天的第一个问题: 我们都知道您在技术领域有着深厚的造诣和丰富的经历,当初是什么契机让您从百度这样的巨头转投字节跳动,并扛起火山引擎开拓企业级市场的重任呢?

谭待: 这段经历非常重要。我在百度一直担任技术leader的角色,在这个过程中也逐渐承担到了一些新角色。

(从技术转向开拓市场)这件事并不容易,作为纯技术人员,如果没有大团队的管理经验和业务背景,那么大家往往会认为你应该继续从事技术工作。但换个角度来说,虽然没有直接的经验,但也可能因此思路和方法与前人截然不同,很幸运我在字节得到了这个机会。

冯大刚:今天花更多的时间在内部的管理,还是外部的竞争?

谭待: 我不认为应该把内部和外部分开来看待这个问题,或者我们可以这样理解:首先得解决生产力的问题,其次还得解决生产关系的问题,而生产关系又涵盖内部生产关系与外部生产关系。

管理者的重要职责在于,首先解决关键问题,其次解决只有自己能够处理的问题。有些事情不一定能解决,就不必耗费过多精力在上面,要把精力放在只有自己这个层面才能解决的问题上。

冯大刚:这个问题是什么?例如最近一年必须要由你解决的问题是什么?

谭待: 我在这一年中花费的精力主要是如何做好模型to B,包括内部和外部。对于内部产品而言,需要考虑的不只是如何提升模型的效果,还得思考怎样降低工程架构成本、提高产品的应用性;对外也是如此,如何让更多人使用,并将他们的反馈带回来,提升自己的产品性能。此外,还得明确该采用什么样的服务团队、怎样的阵型以及组织形式,从而为客户做好服务,实现良好的连接。

这里面存在许多不确定性,产品仍处于0-1阶段,客户需求存在许多不确定性,模型能力也在快速提升,同时在市场、技术、产品完成之后,还需要构建对应的组织架构来承接。这些事情对我来说最重要,也是只有我能够解决的问题。

   大模型以前,

所有B/C端的技术都是割裂的

冯大刚:怎么看待当前大模型to B跟to C之争?

谭待: 大模型与之前的所有技术都存在差异,以前技术在to B跟to C是相互割裂的。例如,使用抖音并不等同于个人在使用火山引擎;在淘宝购物也不代表会使用阿里云,二者截然不同。但是今天大模型在to B跟to C仍具备高度耦合性,应用背后的能力主要源自模型。大模型技术无论是to C还是to B,核心不会像以前泾渭分明。

但这也有好处。以前to B端很重要的一点是决策者与使用者脱离,我们不知道使用者如何使用。还有许多CRM、ERP产品都是如此,拍板的人并非使用的人,他们无法亲自体验,只能通过观看PPT、讲解案例去了解别人的使用方法。

然而大模型不同,首先大模型完全可以体验,其次决策者和使用者在很多场景中都是相通的。我们现在遇到每一个客户,包括董事长、CEO们,我的第一个建议都是让他首先自己先去下载豆包APP,因为负责人和决策者对AI有感知,每天在使用,他才能了解企业哪些环境可以通过大模型优化。

我认为这不仅是大模型技术本身的改变,也会对整个to B和to C的商业模式带来很大差别。过去业务端对于云如何使用是没有感知的,真正与云打交道的是运维人员,但研发人员只能看到一堆数字,只有在事故发生时才能有所感知。然而大模型不一样,每个人都是首先作为用户,能够在日常中感知到产品的优劣;其次再讨论如何作为工具提升生产效率。

冯大刚:不同大模型之间,C端产品差距很大吗?

谭待: C端产品的差距可能更大,例如Prompt如何书写,如何优化产品设计交互等,这些都会有加分项,模型本身的效果也存在差距。

我通常不会直接告诉大家豆包的好用程度,只是告诉他们我们有这些能力。只看参数其实没有意义,或者说参数只是其中一个很片面的信息。你使用后有何感知?是否使用其他产品?自己使用后的对比感受如何?当我们讨论一个大模型好不好用,仅凭一个PPT是不能欺骗你日常的感受的,你会有一个明确的判断——这个产品真的好用。很多人跟我说,觉得豆包好用,而且关键的是豆包的进步速度很快,(模型学习的)斜率很高,这一点非常重要。

谁是第一?

冯大刚:如果讨论大模型领域到底谁是“第一”,你认为最关键的指标是什么?

谭待: 从消耗数量来看,token消耗数最重要,这代表了多少推理在使用。项目金额不是一个好维度,因为存在太多集成项。如果项目偏私有化,那就包含很多成分,例如硬件、软件、应用开发以及人力外包。这里面大模型的占比是多少?不同的统计口径将会得出不同的结论。

冯大刚:你认为火山现在处于一个什么样的位置?

谭待: 虽然没有第三方数据,但纵观行业里每个人宣布的数据来看,我认为火山处于一个很靠前的位置。但大家口径不同,例如我们直接讲token数,有些人不讲token数,他们只讲调用次数。目前所有模型的定价模式都是按照token收费,虽然我认为这是一个更初级的商业模式,但不否认这个模式可能会存在很长时间,可能最终它会演化成不是按token结算,而是按照价值收费的模式。

例如OpenAI原来的订阅费是200美金,他要做一款2000美金的产品,因为他AI的能力显著提升了,所以能为你提供更高的价值,这是长期商业模式的演化。

冯大刚:您提到的按价值收费的方式,在互联网大厂中似乎还没有实施。

谭待: 这是模型能力逐渐增强的结果。模型需要实现功能很复杂的agent才能按照价值收费,我希望在25年内可以有一些试点。

冯大刚:怎么定义按照价值收费?

谭待: 这种模式在火山一开始就存在。我们在很多领域采用端到端的方式,为企业解决更困难的问题,帮助企业节省资金,并且帮助你获利。例如最初我们在火山的产品是提供推荐服务,通过AB测试,我能够明确告诉你,我的服务能够帮助你多赚多少钱,然后我从中拿一部分。在大模型我们也要实现这一点。按照价值收费的核心在于,AI必须深入到业务侧去,大模型未来也有机会做到这里。

冯大刚:现在许多人开始讲,例如Kimi,新增并不重要,留存才是更重要的事情。你认为留存取决于什么?

谭待: 在C端留存需要保证用户体验,B端也是如此。我们现在非常关注留存。用户这周使用,下周是否还会使用?虽然我们没有沿用C端留存率、活跃率的指标体系,但是如果用户在第二周或者第二个月不来,说明你没有做好。

AI云原生时代

冯大刚:这次(冬季FORCE原动力大会)豆包的更新里,你认为什么最值得关注?

谭待: 这次豆包大模型的新发布和升级,核心在于两个方面:

一是豆包Pro作为我们最强的语言模型,会有较大版本升级,这个版本全方位对齐了GPT-4o,能够解决更多难题。同时我们发布了豆包视觉理解模型,视觉是人类理解这个世界最重要的手段,对于大模型来说也是如此。

除了模型本身外,第二大亮点是推出了一系列模型落地需要对应的智能体开发平台和工具,其中包括火山方舟的新能力,例如利用大模型进行多模态搜索和推荐等,我们还提供了100+行业应用模板,帮助企业低成本地完成这些事情。

接下来我们还会围绕更强的模型、更低的成本和更易落地的方案展开工作。现在大模型在企业IT负载中占比越来越大,整个企业的IT架构已经到了变化的节点。最初我们讨论的是传统的IT架构,之后讨论云原生。我们认为现在有AI之后,行业将会走向AI云原生。

冯大刚:怎么理解这个AI云原生?跟云原生有什么区别?

谭待: 虽然有人提到AI原生,但我认为“AI云原生”是更准确的表述。AI背后是算力驱动逻辑,因此云端算力的消耗毫无疑问会更大。云原生带来的弹性和构建上的冗余度会被AI云原生继承,但与此同时AI的出现让计算和数据安全发生很大变化,以前我们所有的计算架构面向CPU进行优化,现在单独在CPU外再加一个GPU,需要面向GPU重新构建。传统以太网架构已无法满足计算网络与数据层面的新需求。我们需要以GPU为核心,重新构建一套数据流动体系。

而且在数据层面,大模型带来的一个最大价值,就是我们终于能够很容易地处理非结构化数据。以前数字化转型里第一个困难点在于,如何将非结构化数据转化为结构化数据。这个过程很容易丢失许多信息,无法找回。下一步,如何提取非结构化数据也是一件非常困难的事情。但有了大模型之后,非结构化数据,例如语音、视频,都可以直接交给大模型处理。

另一方面,我们也要考虑如何将结构化数据和非结构化数据在数据库里统一存储、管理。我不能在大数据中放置一份数据,在模型处理上又放置一份,这样数据会堆积太多,这个变化将涉及整个数据架构的重新设计。

安全方面也是如此。这次FORCE大会上我们也探讨了如何利用AI解决隐私问题的私密计算方案。我们提供的是云上的、能够解决更通用需求的方案,例如知识库、推理和其他领域。以前安全和运维有大量日志和报警,都是靠人工处理,但事实上这些可以通过AI做好安全和运维把控。

总的来说,从IT系统设计、数据、安全等方面,AI都带来了大量的变化。这次我们围绕AI延伸有一系列产品的发布,这也是云2.0带来的变化。云原生技术已经存在10多年的时间,它是从2013年、2014年开始提出的技术。未来10年或者20年,行业将会走向AI云原生。

AI技术普惠

冯大刚:目前豆包的很多工具和AI已经在字节内部使用,使用效果如何?

谭待: 非常好,现在我在飞书上提问题,它会帮我自动总结,如果数据有异常,还会替我查看原因。而且我们现在针对客户的工单进行分析,在总结完结构与非结构数据后,还可以了解他们对我们的产品是否满意。从管理者的角度来看,这让你能够更好地掌握全局。IT架构也是如此,例如我们现在的豆包模型的效果好、成本低,是因为这些首先都在公司内部平台上线,我们通过AI云原生计算和网络优化,否则我们无法实现持续AI产品的低价与盈利。

冯大刚:豆包视觉理解模型是怎样定价的?

谭待: 豆包大模型的定价,是要做好 AI 普惠的事情。

我们推出大模型,是希望它能真正用起来,能够通过 AI 帮助更多的开发者和企业来提效,特别是中小企业。因为开发者和中小企业以前缺乏各种各样的资源,但是通过大模型,它能自己生成代码,能自动创作内容,能完成各种各样的复杂任务,其实是能大幅的提升开发者和中小企业的生产力。

如果要实现这个目标,第一是模型能力要更好,第二是成本要更低,这样大家才能踊跃地去创新,才能去涌现越来越多的应用,去解决实际的问题。

豆包大模型的定价,都是一步到位的合理价格,价格透明,不是“高刊例价+折扣”的做法。我们希望推动大模型的普惠,让更多的中小企业和个人开发者能够释放自己的生产力,帮助他们做更多的创新,这也是可持续的事情。不仅豆包大模型在降低使用成本,从全球来看,OpenAI、Gemini都在不断的降价,其实都是在用类似的方法来做。

冯大刚:但还是会有人觉得你们在打价格战。

谭待: 对于企业级市场来说,商业模式是建立在可持续发展的基础上,任何商品必须是盈利的,不能靠补贴来降价。如果降价是亏损的,规模越大亏得越多,这就不是合理的商业模式。

即便豆包视觉理解模型定价只有3厘钱每千tokens,我们也保持毛利是正的,并不是赔钱补贴。

冯大刚:为什么能做到这样的价格?

谭待: 豆包大模型是在技术上做了大量的优化,通过技术创新降低成本,这样既实现了AI科技普惠,也能够让我们的业务是有毛利的、可持续发展的状况。

具体的做法是算法、软件工程和硬件结合的方案:比如算法上有更好的模型结构,可以用更低的成本去做复杂的推理。对比一下,人类大脑(对应GPU功能)其实只有5瓦特的功耗,是非常低成本的,大模型也有非常多优化的空间,能够让它在保持相同的智能水平的情况下,使用成本越来越低。另外,从一开始算法团队在模型结构设计的时候就考虑到了豆包大模型推理量巨大的需求,在预训练阶段就针对性的在attention,KV cache机制上做了创新优化。既保持了模型的智能水平,又对推理极为友好,可以有效降低推理成本。

另一方面,工程上很重要的一个点就是规模化。因为规模越多,有越来越多的不同的负载,就可以把不同负载进行混合调度。比如有的科研任务是在半夜,大量进行模型的推理;办公的场景,使用高峰是在白天;有的负载是娱乐场景,可能是在早晚高峰。所以当大模型的客户越来越多,企业的负载越来越多元化的时候,就可以通过规模化的调度把成本降低好几倍。

火山引擎全力推广豆包大模型,其实已经积累了这样的规模优势。此外,我们在具体的软硬结合的方案上也做了很多事情,比如说我们应该是国内大规模率先去使用PD分离推理的。因为推理的不同阶段,对算力和带宽的要求是不一样的。这样我们就可以把模型推理按阶段分离,放到不同的池化的资源池里面,再搭配底下不同的硬件选型。因为有的硬件是算力强,有的硬件是带宽大,分别适配不同的推理阶段,通过这种方式也能把成本降低非常多。再加上经营管理的层面,我们做库存的管理、供应链的管理。上述因素综合起来,每一个环节都有好几倍的成本优化,整体就是非常大的提升。

冯大刚:火山云在传统云领域并非第一,是否可以依靠AI云实现后发制人?

谭待: 我们做云的逻辑是,云一定是一个非常大的赛道,它是用GDP x 数字化占比 x 渗透率 计算出来的,因此这个空间非常大。第二,对于企业而言一定是多云,因此市场肯定能容纳几家公司,而不会仅限于一两家公司。因为企业从供给安全角度来看,一定会使用多云,从容灾角度也是如此。第三,不同的云能力特点不同,它可以利用各家的优势。从数据角度来看,一个公司多云的比例和数量也能印证。云的本质就是规模,服务器越多、带宽越大、成本越低、弹性越好,就能够用更好的价格提供更多服务,拥有更多客户。

对于云计算来说,AI是一个很大的变量。AI加入之后,云的性质发生了变化,它能更好地服务于业务端。云的所有产品都会发生大变化,不像过去10年云的产品没有变化,未来10年云的产品会发生很大变化。我们刚才讲AI云原生就是这个概念。只要有变化,新的产品就能做出差异化,更好地服务好客户,这是一个很大的机会。首先我们对于传统云上平台的规模非常有信心,对于AI这一部分更有信心,我们的目标是要做到第一。

冯大刚:我观察到,今年机场里的广告普遍是云厂商和AI厂商在不断地“秀肌肉”,方法是粘贴客户名单。你认为明年还会采用什么方法?

谭待: 我最近也和团队在沟通,我们的机场广告是否需要稍微修改?之前的逻辑是告诉大家有很多人在使用,但现在我认为顾客关注的是,是否有人深度使用以及带来了什么效果?因此从我们的角度来看,未来我们可能会朝这个方向发展。

冯大刚:感谢谭总,今天交谈得很愉快。我们用豆包问的最后一个问题来收尾,豆包问的是,在繁忙的工作之余,您有哪些个人爱好和独特的放松方式?这些对管理有什么启发?

谭待: 我在平时放松时喜欢玩两款游戏,一款是足球经理,这是一款模拟经营游戏;一个是文明,这是一个策略游戏。这两款游戏每次花费的时间都非常长。首先我对历史和足球都很喜欢,其次你可能也能领悟一些管理理念,并且可以进行沙盘演练等操作。我认为你每天思考的问题,例如今天思考了很久的管理问题,无论是看书还是玩游戏,这个过程中一定会联想到这些问题。而且这两款游戏都是单机版,可以存档,这意味着你可以永远胜利(笑)。

主题:模型|火山引擎|大模型|豆包|冯大刚|火山引擎总裁谭待|豆包视觉理解模型