端到端

文生图、图生视频、视频生成、3D生成、动作生成，这些曾经被分别讨论的技术模块，正在被重新放回同一个问题之下：如果未来的模型不只是回答问题、生成内容，而是能够理解复杂意图、调动多种能力、完成端到端创作，那么大模型竞争的核心，就会从模型本身，转向模型、Agent、skills与应用场景之间的整体协同。

文章

为什么我们引入“全模态”这个概念，就是因为如果模型天然把文本、图像、视频等模态打通了，那我只需要建一套索引，就可以处理所有模态的问题，也才能支持真正的端到端创作。

文章

但从我的角度看，最优先级的事情非常明确，就是建立一个端到端的创作智能体Agent平台。

文章

超越单项生成能力：全模态架构如何驱动端到端的任务交付

文章