一个月内三次重大升级快手可灵大模型实现让AI技术创造更多价值
视频拍摄制作一直以来都是有一定专业性要求的技能,而如今,在新技术的推动下,这一印象有望被重塑。通过大模型,用户只需输入文字或者图片,就能自动生成一段高清视频,它还可以不断延长视频的长度,最长能达到3分钟。
这并非天方夜谭。国产视频大模型快手“可灵”已于日前正式推出,作为首个Sora级面向用户开放的文生视频大模型,可灵一经发布便引发了国内外持续的高度关注。在刚刚落幕的2024世界人工智能大会上,继图生视频、视频续写功能发布之后,可灵在一个月内迎来了第三次重大升级,网页端也正式上线,让这款大模型的话题感再度拉满。
业内人士向央广网表示,目前各行业的大模型产品数量已经超200个,而且呈现持续增加的态势。如何在繁多的大模型中脱颖而出,是对各家技术沉淀和和综合实力的考验。
图文生视频有何难?做到符合物理规律决定了模型上限
台上一分钟,台下十年功,这句俗语用在视频大模型行业来说恰如其分,从视频大模型的推出整体晚于图文生成大模型也可见一斑。2月15日,美国人工智能研究公司OpenAI正式发布了旗下首个文生视频模型Sora,此后这个领域才更多呈现在普通用户面前。
相关视频大模型从业者表示,自Sora以来,各家视频生成模型都非常注重生成符合物理规律的视频,这决定了模型能力的上限。记者在测试过程中也发现,不管是还原现实生活场景还是天马行空的想象场景,可灵在动作还原上都较为流畅真实。
(蒙娜丽莎戴眼镜动图)
如何做到这一点?快手大模型团队表示,可灵具有大幅度且合理的运动生成能力。通过建模复杂的时空运动,可灵可以生成较大幅度的运动,并符合运动规律。
本次WAIC可灵宣布的高画质版、首尾帧控制和相机镜头控制功能,分别是可灵AI在电影级高清画面生成、领先图生视频效果和优秀视频生成可控性三大能力上的进一步演化。此外,在更充分模型训练的加持下,可灵AI在运动生成、生成时长、物理规律、指令响应等其他四大能力上也进一步升级。
值得一提的是,快手核心的基础模型,以及底层的IDC算力中心、网络架构AI平台,都是快手自研。为了支持大模型的训练和推理,快手建立了一个万亿参数规模的大模型训练及推理基础设施。这个基础设施为大模型提供了必要的计算能力和存储资源,确保了模型的高效运行和持续优化。
商业落地成效初显,用AI技术创造更多价值
与很多大模型的商业路径还在探索阶段不同,快手大模型的商业落地路径清晰,且已经初显成效。身处短视频领域第一梯队,快手视频生成大模型有更加天然、广泛的应用场景。
据了解,目前快手使用大模型,在广告领域里面进行构建了视频脚本生成,直播实时脚本生成,广告线索的克服技术等。叠加数字技术,能够助力商业化广告主低成本的生成高品质短视频和直播。
数据显示,快手的AIGC的广告消耗从1月份几乎可以忽略不计,到6月份快速增长,现在月度日均值消耗将近2000万每天,峰值日消耗远远超过2000万。
快手商业化外循环和AI商业产品负责人刘逍透露,半年来,有近2万商家在快手平台借助大模型能力实现智能化经营,获得不菲回报。相比今年1月,今年6月的AIGC月活跃客户数增长了8倍,月GMV规模提升了64倍,平台AIGC广告收入规模提升了12倍。刘逍表示,磁力开创、女娲数字人、π数字员工等“新生意”工具将持续为商家深度赋能,“我们将继续深化AI技术在商业化中的应用,不断创新和发展,为客户创造更多价值。”
技术积累加上商业化前景明朗,让可灵大模型的每一步动向都引发强烈关注。快手高级副总裁、主站业务与社区科学线负责人盖坤表示,一直以来,AI技术创新都是推动快手发展的驱动力,不仅覆盖内容生产、理解、推荐等多个层面,也持续推进着快手商业生态的智能化经营水平。快手未来将继续加大在AI领域的投入,大力推动技术创新,“坚定地为用户做最好的AI技术”。