物理
分类
规律
模型拿到的只是一句自然语言,却被期待生成一个完整、连续、符合物理规律的视频。
文章
过去我们习惯认为,只要模型足够大、数据足够多,它终将学会真实世界的物理规律。
文章
自洽
但NEWTON指出,问题的根源并不在模型本身——而是输入本身就不足以唯一确定一段物理自洽的视频,再大的模型也补不回输入端缺失的信息。
文章
换句话说,模型是在信息严重不足的前提下,被要求交出一个物理自洽的完整答案。
文章
维度
常识
在VideoPhy-2这类面向物理常识的视频评测中,即便是表现最好的模型,联合准确率也只有32.6%。
文章
碰撞、流体、切削、堆积、弹跳等动态过程,经常看起来合理,却经不起基本物理常识的检验。
文章
工具
于是,浙江大学、香港理工大学、树根科技与三一集团联合提出的NEWTON(NeuralAgenticWorld-AwareTool-OrchestratedNavigation)——把Agent范式搬进视频生成里:与其继续把物理硬塞进生成器的权重里,不如让一个会规划、会调用物理工具、会自查自纠的Agent,把生成器“降级”成它工具箱里的一件兵器。
文章
过程要活,能针对不同场景调用不同的物理工具;
文章
信息
NEWTON把这一步改造成了一个多轮Agent循环——Planner先分析当前任务缺哪些物理信息、该调哪些工具,Executor执行工具调用和视频生成,Verifier给结果打一个物理合理性分数,再把反馈写回下一轮规划。
文章
世界
然而,当我们把目光从“像不像”转向“对不对”时,一个深刻的问题开始浮出水面:当前视频生成模型虽然擅长制造视觉真实感,却并不真正理解物理世界。
文章