登录

物理


分类

规律

模型拿到的只是一句自然语言,却被期待生成一个完整、连续、符合物理规律的视频。
文章

过去我们习惯认为,只要模型足够大、数据足够多,它终将学会真实世界的物理规律。
文章

自洽

但NEWTON指出,问题的根源并不在模型本身——而是输入本身就不足以唯一确定一段物理自洽的视频,再大的模型也补不回输入端缺失的信息。
文章

换句话说,模型是在信息严重不足的前提下,被要求交出一个物理自洽的完整答案。
文章

维度

工具库覆盖的是互补的物理维度:
文章

常识

在VideoPhy-2这类面向物理常识的视频评测中,即便是表现最好的模型,联合准确率也只有32.6%。
文章

碰撞、流体、切削、堆积、弹跳等动态过程,经常看起来合理,却经不起基本物理常识的检验。
文章

工具

于是,浙江大学、香港理工大学、树根科技与三一集团联合提出的NEWTON(NeuralAgenticWorld-AwareTool-OrchestratedNavigation)——把Agent范式搬进视频生成里:与其继续把物理硬塞进生成器的权重里,不如让一个会规划、会调用物理工具、会自查自纠的Agent,把生成器“降级”成它工具箱里的一件兵器。
文章

过程要活,能针对不同场景调用不同的物理工具;
文章

信息

NEWTON把这一步改造成了一个多轮Agent循环——Planner先分析当前任务缺哪些物理信息、该调哪些工具,Executor执行工具调用和视频生成,Verifier给结果打一个物理合理性分数,再把反馈写回下一轮规划。
文章

世界

然而,当我们把目光从“像不像”转向“对不对”时,一个深刻的问题开始浮出水面:当前视频生成模型虽然擅长制造视觉真实感,却并不真正理解物理世界。
文章

文本提示词本质上是对物理世界的高度压缩。
文章