登录

21深度丨OpenAI内忧外患中的自我救赎


速读:北京时间12月10日,延宕了10个月之久,OpenAI向付费用户开放使用Sora,可以生成任意长宽比、时长从5秒到20秒的全新视频,支持文生视频、图生视频、视频衍生视频。 首先,文生视频功能作为“基础操作”,表现力一如既往。 Sora提供的Remix重混功能,支持对已生成视频的修改,可以替换、删除或重新构想视频中的元素。
2024年12月11日 07:4

21世纪经济报道记者孔海丽、实习生贾晨溪 北京报道

OpenAI终于正式上线了Sora,而且是比原定更高效、更好用的Sora Turbo版本。

北京时间12月10日,延宕了10个月之久,OpenAI向付费用户开放使用Sora,可以生成任意长宽比、时长从5秒到20秒的全新视频,支持文生视频、图生视频、视频衍生视频,并且附带替换、删除、混合、剪辑视频功能。

在OpenAI的官方表述中,Sora依然是早期版本,OpenAI CEO塞姆·奥特曼把它类比为视频界的GPT-1。以这家公司的调性,或许更多通往AGI的工具也在悄悄训练中了。

伟大的愿景背后,也少不了现实压力。虽然产品足够炸裂,但长居热搜第一的OpenAI,也有自己的烦恼。

想要尝鲜Sora,付费用户分为两个等级:月费20美元的Plus会员每月可以快速生成50次视频,每条视频长度最多5秒,最高清晰度为720p;OpenAI上周刚推出的“史上最贵会员”——月费200美元的Pro会员,每月可以快速生成500次视频,并且有不限量慢速生成机会,每条视频长度最多20秒,最高清晰度为1080p,并且支持同时运行5个生成任务,视频还可以无水印下载。

在OpenAI的X社交账号下,有网友称:“这是我花过最快的200美元。”

一方面,OpenAI的明星产品GPT系列模型迭代速度正在放缓,高昂的开发成本与低于预期的性能提升,让前途蒙上一片迷雾。

另一方面,营利压力是悬在OpenAI头上的达摩克利斯之剑,奥特曼甚至坦言,如果能回到过去,他们当初一定不会选非营利组织架构,“我们也没有预见到需要的资本量会如此庞大。”他说。

为了修正这种组织架构与商业诉求之间的“撕扯”,OpenAI在考量各种可能性,试图转向营利性组织架构,取消与微软的AGI条款以释放投资潜力,也包括寻求更多融资甚至贷款。

国内一位AI领域投资人告诉21世纪经济报道记者,虽然相较于绝大部分AI企业,OpenAI能够吸引的资金已经是“天量”,但高昂的研发与训练费用,仍然让OpenAI难以大胆前行,未来,转向营利性架构既是团队诉求,也是市场的要求。

AI视频生态初成

与今年2月放出的Sora预览相比,Sora Turbo已经突破了纯视频生成架构,更像是一套完备的AI视频生态。

首先,文生视频功能作为“基础操作”,表现力一如既往。

整体观感上,对AI视频生成有认知的人,依然大概率能从直觉上判断出来“这是AI生成的视频”。

在视频生成之外,Sora的惊艳在于,它已经是一个相对完整的实用视频工具,聚合了创作、生成、剪辑等一连串功能。

创作环节,Sora提供了“社区功能”,在这里可以看到其他创作者的作品,寻求一定的创作灵感或启发。

Sora也给出了预设风格模板,用户也可以在持续使用中,将新的风格变成预设模板。这一方面有助于探索不同风格创作,也将帮助有连续作品创作需求的用户,保持风格统一性。

而在视频生成之后,才是Sora与其他AI视频大模型拉开差距的地方。

Sora提供的Remix重混功能,支持对已生成视频的修改,可以替换、删除或重新构想视频中的元素。

比如,已经生成了“打开通往图书馆的大门”效果,可以继续用一句话把视频里的门换掉、把场景换掉……

可以想象一下,影视界耗资巨大的视频特效,似乎将被彻底颠覆。

Sora的剪辑功能还体现在Re-cut,用户可以选中自己最喜欢的一帧视频,并向任意方向延伸它们。也就是说,如果一个片段中,只有一部分是你满意的画面,完全可以只用这部分继续创作。

编辑视频,也可以是段与段之间的衔接。Storyboard支持在时间轴上组织和编辑视频的独特序列。

常用的过渡效果也可以在Sora实现。Loop功能可以修剪并创建无缝衔接的循环视频。

Blend功能可以把两个视频合并为一个无缝剪辑视频。

秀肌肉的同时,奥特曼本人解释了AI视频对OpenAI的重要性,其实这也是整个AI行业向前的路径折射。

他说,对于OpenAI而言,Sora不仅是一项技术,更是激发创意的重要工具。通过Sora,OpenAI看到了一种全新的协作模式——AI和人类共同创造,AI创意工具或许将极大地改变人类思考和创意的方式。

而且,相对于用文本进行人机交互,视频交互意味着更立体、更生动、更丰富的信息维度。

“Sora是OpenAI通往AGI路线图上的重要里程碑。”奥特曼强调说。

有AI从业者表示,Sora打开的不只是AI视频生成的想象力,行业更大的野心和愿望在于,AI视频可能极大地改变人机交互。

“目前,大家也不能明确说出AI视频通向哪里,或者怎么影响商业世界,但未来想象空间是巨大的。”国内一位关注AI生态的企业人士说。

Scaling Law瓶颈

近期,关于Scaling Law“暴力美学”正在失效的担忧,被进一步放大。

所谓Scaling Law,也被称为“规模定律”,在AI领域,Scaling Law是指模型性能会随着模型大小(如参数数量)、数据集大小和计算资源的增加而放大,并且这些变化通常遵循幂律关系‌。

但行业早早就在担心,Scaling Law会触及边界,在那之后,可能意味着训练投入不再有相应成效。

而最早碰到这个瓶颈的,恰恰是行业巨兽OpenAI。

据报道,OpenAI最新模型Orion遇到训练困境。尽管Orion模型已完成约20%的训练,并在此前称计划于12月发布,但其在处理复杂任务时并未显著超越GPT-4。

相较于现有模型,Orion能力提升有限,代码能力甚至不如现有模型,跃升程度远不如GPT-3到GPT-4阶段,而且Orion运行成本更高。

与此同时,技术进展放缓可能对OpenAI的盈利模式产生重大影响。OpenAI的主要收入来源包括订阅服务和API服务,但如果Orion模型无法达到预期,企业客户可能减少对OpenAI的依赖,从而影响公司收入。

投资者也在观望,OpenAI的未来盈利能力,决定了资本现在的投入力度。

不只OpenAI一家,Scaling Law瓶颈也公平地困扰着其他科技公司。谷歌下一代Gemini模型也被曝性能未达预期,Anthropic传出放缓了Opus 3.5的进展。

OpenAI不得不考虑技术转向。

据OpenAI知名研究员、O1研究团队的核心科学家NoamBrown透露,尽管扩大预训练规模是提升模型性能的有效手段,但成本高昂且终将触及天花板。而o1模型所代表的“推理时计算”技术,为解决这一瓶颈提供了全新的思路,将加速AGI的到来。

NoamBrown介绍,这项技术让模型能够在推理阶段进行更深入的思考和计算,从而解决更复杂的问题。

比如,o1模型可以自主学习策略、拆解任务、识别并纠正错误,展现出前所未有的智能水平,证明了模型可以进行更深入的推理和解决更复杂的问题,“它存在的意义被大大低估”。

NoamBrown还强调,“推理时计算”技术目前还处于早期阶段,未来提升空间巨大。

谋求转向营利性架构

除了内部产品焦虑,OpenAI的外部压力也不算小。

谋求转向营利性组织结构的OpenAI,遭到了特斯拉CEO埃隆·马斯克更强烈的狙击,后者甚至试图向美国联邦法院申请禁令,以阻止OpenAI改变组织架构。

近日,知情人士透露,OpenAI还在别的方面努力筹划,增加公司的投资潜力。

此前,OpenAI与大股东微软订立了一个条款,条款规定,当OpenAI开发出通用人工智能(AGI)后,微软就将无法再获取其技术。据悉,OpenAI正在考虑撤销这一条款,但董事会尚未做出最终决定,正在讨论各种选择。

两个月前,微软还曾就OpenAI转化为营利性公司后的股权分配问题进行了谈判。

OpenAI近期完成的66亿美元融资中,微软投资额约为7.5亿美元。根据融资协议,OpenAI将在两年内完成向营利性公司的转变,否则投资者将有权收回资本。

截至目前,微软共计投资OpenAI137.5亿美元,而作为OpenAI的最大投资方,微软却没有OpenAI的话事权,甚至迫于反垄断调查的压力,退出了OpenAI董事会。

如果OpenAI能够顺利转向营利性组织,投资方将通过更直接的股权结构消除非营利组织规定的利润上限,并且通过掌握股权减少OpenAI高层变动可能带来的风险。其中,微软作为OpenAI最大投资方,可能会获得该公司大量股权。

加州大学洛杉矶分校洛厄尔-米尔肯慈善与非营利中心的创始执行董事Rose Chan Loui表示:“OpenAI已明确表示,非营利组织将不再控制(营利性公司),因此这可能意味着微软和其他投资者将对OpenAI的工作有更多发言权。”

近日,奥特曼本人也再次强调了这种转变的必要性。据他透露,OpenAI成立时,完全没有想到将来会成为一家产品公司,所以他们本着初心,将OpenAI设立成了非营利性的组织,承诺公司不为任何人的私利而成立,并将其技术保持开源,以AI造福公众。

但后来,研发与训练AI需要的资金量巨大,OpenAI不得不设立了一个营利性子公司,拓展了有限盈利的模式。奥特曼说:“但这种模式已经开始拉扯OpenAI非营利组织的形态,而且OpenAI在下一阶段所需的资本量实在是太大了。”

所以,OpenAI在积极思索一些变化,这个问题非常复杂,董事会正在研究,还未做出任何决定。

曾经考虑过的一个方案是,非营利组织拥有一个公共利益公司(PBC)的绝大部分股份,并通过这种方式利用大量财富来实现非营利组织的目标。

为了帮助OpenAI融资,也不排除奥特曼本人会为了增加投资者信心而持有一部分股权。

“如果能回到过去,我会拿一点OpenAI股权,至少这会让投资者们对我的态度更清晰一些,可能也会让融资变得容易一些。确实有很多投资者因为我没有拿股权而没有投资。”奥特曼透露。

一位来自高校的观察人士认为,AI尤其是一个资本密集型行业,OpenAI为吸引投资做出的改变,会有助于公司改善资金状况,并进一步利好业务层面。

主题:视频|用户