物理

模型拿到的只是一句自然语言，却被期待生成一个完整、连续、符合物理规律的视频。

文章

过去我们习惯认为，只要模型足够大、数据足够多，它终将学会真实世界的物理规律。

文章

但NEWTON指出，问题的根源并不在模型本身——而是输入本身就不足以唯一确定一段物理自洽的视频，再大的模型也补不回输入端缺失的信息。

文章

换句话说，模型是在信息严重不足的前提下，被要求交出一个物理自洽的完整答案。

文章

工具库覆盖的是互补的物理维度：

文章

在VideoPhy-2这类面向物理常识的视频评测中，即便是表现最好的模型，联合准确率也只有32.6%。

文章

碰撞、流体、切削、堆积、弹跳等动态过程，经常看起来合理，却经不起基本物理常识的检验。

文章

于是，浙江大学、香港理工大学、树根科技与三一集团联合提出的NEWTON（NeuralAgenticWorld-AwareTool-OrchestratedNavigation）——把Agent范式搬进视频生成里：与其继续把物理硬塞进生成器的权重里，不如让一个会规划、会调用物理工具、会自查自纠的Agent，把生成器“降级”成它工具箱里的一件兵器。

文章

过程要活，能针对不同场景调用不同的物理工具；

文章

NEWTON把这一步改造成了一个多轮Agent循环——Planner先分析当前任务缺哪些物理信息、该调哪些工具，Executor执行工具调用和视频生成，Verifier给结果打一个物理合理性分数，再把反馈写回下一轮规划。

文章

然而，当我们把目光从“像不像”转向“对不对”时，一个深刻的问题开始浮出水面：当前视频生成模型虽然擅长制造视觉真实感，却并不真正理解物理世界。

文章

文本提示词本质上是对物理世界的高度压缩。

文章