生成
分类
视频
姚霆:智象未来的核心团队最早来自微软亚洲研究院,那时候,我们跟着梅涛老师(智象未来创始人),做了全球第一个从文生成视频的工作研究,算是中国比较早一批做视觉、多媒体、视频相关研究的人。
文章
第三类,是最近大家讨论很多的WorldActionModel,它和具身智能更相关,核心是根据用户输入同时生成视频和动作,包括英伟达在内,最近很多工作都和这个方向有关。
文章
能力
相比单纯讨论视频生成能力的优劣,他更在意的是,模型如何从单点能力跃迁为创作底座,skills如何被高效而安全地管理、编排和组合,应用又如何反过来塑造下一轮模型迭代。
文章
超越单项生成能力:全模态架构如何驱动端到端的任务交付
文章
生成
PixVerseV6的发布,不仅是画质的迭代,更是对AI视频生成逻辑的一次重构。
文章
它的技术核心,就是一个全模态生成模型作为底座。
文章
宇树科技CEO:机器人任意动作生成、自主出招对打2026年03月30日21:52滚动播报“当下我们最值得推进、见效也比较快的一件事,就是优化机器人动作。
文章
我们希望通过与智象未来的合作,将真实世界中高精度采集的人类动作数据,与可规模化生成的多样化视频数据相结合,构建兼具真实性与多样性的训练数据体系。
文章
作为全球领先的多模态生成式人工智能企业,智象未来专注底层架构的持续创新,在生成质量、语义理解与艺术表现力上不断突破边界,定义行业新标杆。
文章
ai)与诺亦腾机器人(NoitomRobotics)宣布正式达成战略合作,双方将在高质量、规模化具身智能视频数据的生成上展开深度合作,从而开启拓宽具身智能行业数据入口的全新模式探索。
文章
文生图、图生视频、视频生成、3D生成、动作生成,这些曾经被分别讨论的技术模块,正在被重新放回同一个问题之下:如果未来的模型不只是回答问题、生成内容,而是能够理解复杂意图、调动多种能力、完成端到端创作,那么大模型竞争的核心,就会从模型本身,转向模型、Agent、skills与应用场景之间的整体协同。
文章
姚霆:从我的角度看,第一,Sora原来的想法还是做一个非常通用的视频生成模型,但它和垂直领域应用之间,在目前阶段还是相对脱离的。
文章
从我们自己的角度来看,我们现在虽然还是做视频生成更多,但也会把它放在世界模型范畴下去理解。
文章
第一类,是在现有视频生成模型中加入因果关系和物理规律,它本质上还是视频生成模型,只是因为具备这些能力,所以更接近世界模型。
文章
第三类则是和我们更相关的底层像素生成,或者说视频生成模型,这一类我也认为属于世界模型的一种可能性。
文章
那时候也做过一些可以算作生成的工作,比如根据图像、视频生成描述,从而驱动用户和小冰之间的聊天。
文章
如果今天这个模型真的是全模态模型,那么它既可以作为视频生成的底座,也可以作为具身智能的底座。
文章
每一个生成的token(标记),都是电子移动、热量管理以及能源转化为计算力的结果。
文章
火山引擎透露,生成1分钟720P视频,Token消耗在百万级以上,而目前火山官网的定位,Seedance2.0生成模式的售价为46元/百万Tokens。
文章
与之前的视频模型相比,Seedance2.0带来的是质的变化:不是谁的画质更好,生成时间长了几秒,或者在对口型、吃面这样某几个动作上表现更好——而是视频生成终于从「能玩」变成了「能赚钱」。
文章
谭待也在采访中承认,视频生成已经成为驱动MaaS收入增长的超级引擎——随着AI视频创作从实验走向产业化,视频正在成为Token消耗的新主力。
文章
还有一个容易被忽略但非常关键的数字:视频生成对Token的消耗量极大。
文章
Seedance2.0带来了视频生成的产业化。
文章
火山引擎不仅有全球领先的视频生成模型,还为它配好了安全合规体系,在商业化落地的速度和深度上都跑在了前面。
文章
AI视频生成正在从“能画出来”向“真实世界”加速进化。
文章
VibeVoice-TTS-1.5B:90分钟多说话人富有表现力的语音生成
文章
模型
针对时下大火的龙虾热,Wan2.7-Image现已支持skill调用,让龙虾画画,全面解锁生成模型的应用场景。
文章
展望未来,郭春超表示,从技术角度主要关注两个点,第一是各种AI生成模型和人类意图的对齐,能不能做到真正的人类意图的可控,也就是言出法随。
文章
无论是AI3D还是其他模态,如果真正能做到说它生成的结果和人类意图的高度对齐,那时候生成模型的可用性就非常大。
文章
核心
世界模型正在推动AI从“静态内容生成”走向“动态世界建模”,并成为连接感知、决策与生成的核心基础能力。
文章
架构
SkyReelsV4通过四大技术突破——音画一体双流联合生成架构、全模态理解和精准控制、全模态强化学习体系和攻克电影级画质与高效生成的平衡难题,分别解决了音画同步、精准控制、一站式编辑和高效生成等行业痛点,将AI视频生成的普惠生产力和解决方案切实地赋予内容创作者和行业。
文章
效率
MurekaV9在段落内文本控制、生成效率、混音质量与整体听感等多个关键维度持续进化,使AI音乐从“能够生成一首歌”,进一步迈向“能够更稳定地按创作意图完成一首歌”:
文章
技术
腾讯专家研究员、混元3D负责人郭春超谈及3D生成技术和未来发展时,他表示,世界模型不只涉及游戏,还有自动驾驶领域、具身机器人领域也有世界模型,每个方向聚焦和解决的问题不一样,导致世界模型可能大家对它的理解众说纷纭。
文章
底座
图像
基于更大规模数据及尺寸训练而成的Wan2.7-Image-Pro也同步上线,生成图像的构图更加稳定,语义理解更强更精准。
文章
功能
为了确保视频在各平台的兼容性与专业感,沃创支持视频去水印与无水印生成功能。
文章
效果
而在电商领域,可裂变生成特写图、不同场景的卖点图,大幅降低拍摄成本;
文章