生成

姚霆：智象未来的核心团队最早来自微软亚洲研究院，那时候，我们跟着梅涛老师（智象未来创始人），做了全球第一个从文生成视频的工作研究，算是中国比较早一批做视觉、多媒体、视频相关研究的人。

文章

第三类，是最近大家讨论很多的WorldActionModel，它和具身智能更相关，核心是根据用户输入同时生成视频和动作，包括英伟达在内，最近很多工作都和这个方向有关。

文章

相比单纯讨论视频生成能力的优劣，他更在意的是，模型如何从单点能力跃迁为创作底座，skills如何被高效而安全地管理、编排和组合，应用又如何反过来塑造下一轮模型迭代。

文章

超越单项生成能力：全模态架构如何驱动端到端的任务交付

文章

PixVerseV6的发布，不仅是画质的迭代，更是对AI视频生成逻辑的一次重构。

文章

它的技术核心，就是一个全模态生成模型作为底座。

文章

宇树科技CEO：机器人任意动作生成、自主出招对打2026年03月30日21:52滚动播报“当下我们最值得推进、见效也比较快的一件事，就是优化机器人动作。

文章

未来六个月左右，能实现机器人任意动作生成。

文章

我们希望通过与智象未来的合作，将真实世界中高精度采集的人类动作数据，与可规模化生成的多样化视频数据相结合，构建兼具真实性与多样性的训练数据体系。

文章

作为全球领先的多模态生成式人工智能企业，智象未来专注底层架构的持续创新，在生成质量、语义理解与艺术表现力上不断突破边界，定义行业新标杆。

文章

ai）与诺亦腾机器人（NoitomRobotics）宣布正式达成战略合作，双方将在高质量、规模化具身智能视频数据的生成上展开深度合作，从而开启拓宽具身智能行业数据入口的全新模式探索。

文章

文生图、图生视频、视频生成、3D生成、动作生成，这些曾经被分别讨论的技术模块，正在被重新放回同一个问题之下：如果未来的模型不只是回答问题、生成内容，而是能够理解复杂意图、调动多种能力、完成端到端创作，那么大模型竞争的核心，就会从模型本身，转向模型、Agent、skills与应用场景之间的整体协同。

文章

姚霆：从我的角度看，第一，Sora原来的想法还是做一个非常通用的视频生成模型，但它和垂直领域应用之间，在目前阶段还是相对脱离的。

文章

从我们自己的角度来看，我们现在虽然还是做视频生成更多，但也会把它放在世界模型范畴下去理解。

文章

第一类，是在现有视频生成模型中加入因果关系和物理规律，它本质上还是视频生成模型，只是因为具备这些能力，所以更接近世界模型。

文章

第三类则是和我们更相关的底层像素生成，或者说视频生成模型，这一类我也认为属于世界模型的一种可能性。

文章

那时候也做过一些可以算作生成的工作，比如根据图像、视频生成描述，从而驱动用户和小冰之间的聊天。

文章

如果今天这个模型真的是全模态模型，那么它既可以作为视频生成的底座，也可以作为具身智能的底座。

文章

每一个生成的token（标记），都是电子移动、热量管理以及能源转化为计算力的结果。

文章

火山引擎透露，生成1分钟720P视频，Token消耗在百万级以上，而目前火山官网的定位，Seedance2.0生成模式的售价为46元/百万Tokens。

文章

与之前的视频模型相比，Seedance2.0带来的是质的变化：不是谁的画质更好，生成时间长了几秒，或者在对口型、吃面这样某几个动作上表现更好——而是视频生成终于从「能玩」变成了「能赚钱」。

文章

谭待也在采访中承认，视频生成已经成为驱动MaaS收入增长的超级引擎——随着AI视频创作从实验走向产业化，视频正在成为Token消耗的新主力。

文章

还有一个容易被忽略但非常关键的数字：视频生成对Token的消耗量极大。

文章

Seedance2.0带来了视频生成的产业化。

文章

火山引擎不仅有全球领先的视频生成模型，还为它配好了安全合规体系，在商业化落地的速度和深度上都跑在了前面。

文章

AI视频生成正在从“能画出来”向“真实世界”加速进化。

文章

VibeVoice-TTS-1.5B:90分钟多说话人富有表现力的语音生成

文章

针对时下大火的龙虾热，Wan2.7-Image现已支持skill调用，让龙虾画画，全面解锁生成模型的应用场景。

文章

展望未来，郭春超表示，从技术角度主要关注两个点，第一是各种AI生成模型和人类意图的对齐，能不能做到真正的人类意图的可控，也就是言出法随。

文章

无论是AI3D还是其他模态，如果真正能做到说它生成的结果和人类意图的高度对齐，那时候生成模型的可用性就非常大。

文章

世界模型正在推动AI从“静态内容生成”走向“动态世界建模”，并成为连接感知、决策与生成的核心基础能力。

文章

SkyReelsV4通过四大技术突破——音画一体双流联合生成架构、全模态理解和精准控制、全模态强化学习体系和攻克电影级画质与高效生成的平衡难题，分别解决了音画同步、精准控制、一站式编辑和高效生成等行业痛点，将AI视频生成的普惠生产力和解决方案切实地赋予内容创作者和行业。

文章

MurekaV9在段落内文本控制、生成效率、混音质量与整体听感等多个关键维度持续进化，使AI音乐从“能够生成一首歌”，进一步迈向“能够更稳定地按创作意图完成一首歌”：

文章

生成效率进一步提升，创作反馈更及时

文章

腾讯专家研究员、混元3D负责人郭春超谈及3D生成技术和未来发展时，他表示，世界模型不只涉及游戏，还有自动驾驶领域、具身机器人领域也有世界模型，每个方向聚焦和解决的问题不一样，导致世界模型可能大家对它的理解众说纷纭。

文章

基于更大规模数据及尺寸训练而成的Wan2.7-Image-Pro也同步上线，生成图像的构图更加稳定，语义理解更强更精准。

文章

为了确保视频在各平台的兼容性与专业感，沃创支持视频去水印与无水印生成功能。

文章

而在电商领域，可裂变生成特写图、不同场景的卖点图，大幅降低拍摄成本；

文章

生成结果更丰富，重复感进一步缓解

文章