NEWTON:从「等物理涌现」到「请牛顿进工具箱」,Agent驱动的视频生成新范式
近年来,视频生成模型发展迅猛。从 Sora、Veo、Kling 到一系列开源视频生成模型,文生视频已经逼近真实影像的观感 —— 画面清晰、镜头流畅、风格可控,一句话就能生成一段观感不错的视频。
然而,当我们把目光从 “像不像” 转向 “对不对” 时,一个深刻的问题开始浮出水面: 当前视频生成模型虽然擅 长制造视觉真实感,却 并不真正理解物理世界。
一个球可能在没有接触的情况下突然改变速度;一个下落物体可能无视重力;碰撞、流体、切削、堆积、弹跳等动态过程,经常看起来合理,却经不起基本物理常识的检验。在 VideoPhy-2 这类面向物理常识的视频评测中,即便是表现最好的模型,联合准确率也只有 32.6%。这说明,视频生成距离真正的 “世界模拟器”,仍然存在一条关键鸿沟。
于是, 浙江大学、香港理工大学、树根科技与三一集团联合提出的 NEWTON(Neural Agentic World-Aware Tool-Orchestrated Navigation) —— 把 Agent 范式搬进视频生成里:与其继续把物理硬塞进生成器的权重里,不如让一个会规划、会调用物理工具、会自查自纠的 Agent,把生成器 “降级” 成它工具箱里的一件兵器。

论文标题:NEWTON: Agentic Planning for Physically Grounded Video Generation
论文地址:https://arxiv.org/abs/2605.18396
项目主页:https://newton026.github.io/newton/
视频生成为什么总是 “物理不稳”?
过去我们习惯认为,只要模型足够大、数据足够多,它终将学会真实世界的物理规律。但 NEWTON 指出,问题的根源并不在模型本身 —— 而是 输入本身就不足以唯一确定一段物理自洽的视频 ,再大的模型也补不回输入端缺失的信息。
文本提示词本质上是对物理世界的高度压缩。比如一句 “啤酒被倒进杯子直到装满”,看似已经描述清楚了事件,但实际上省略了大量决定动态过程的参数:容器形状、泡沫生成、液面上升速度等。模型拿到的只是一句自然语言,却被期待生成一个完整、连续、符合物理规律的视频。换句话说,模型是在信息严重不足的前提下,被要求交出一个物理自洽的完整答案。
关键信息一旦缺失,模型就只能在不完整条件下做幻觉式补全:单帧也许漂亮,时间维度上却处处露馅 —— 液面不升高、刀划过木头却没有凹槽、颗粒倒下却不堆积、物体碰撞却毫无反应。
所以,物理可靠的视频生成不能押在一句 prompt 上。它至少要同时满足三件事: 信息要够 ,能补齐影响动态的物理变量; 过程要活 ,能针对不同场景调用不同的物理工具; 结果要能查 ,生成之后能发现问题、回头修正。
而现有方法往往只能顾上其中一两条。端到端模型把物理知识隐式压进参数,输入端的条件本身就不完整;ControlNet 一类方法依赖预设的单一模态信号,难以随场景切换,缺乏动态性;单轮生成则没有反馈回路,结果不对也无从修起。
NEWTON 的破局思路:把生成变成一个可规划、可验证的过程
NEWTON 的核心变化,是 重新定义视频生成系统的工作方式 。
传统范式很短:用户输入 prompt,生成器直接输出视频。这意味着所有物理细节都得由生成器自己一次性猜出来。NEWTON 把这一步改造成了一个多轮 Agent 循环 ——Planner 先分析当前任务缺哪些物理信息、该调哪些工具,Executor 执行工具调用和视频生成,Verifier 给结果打一个物理合理性分数,再把反馈写回下一轮规划。视频生成器在这个循环里 不再是唯一 主 角 ,只是工具箱里的一个动作;真正负责组织过程的,是可训练的 Planner。
工具库覆盖的是互补的物理维度:
关键帧生成工具 给视频补充时间边界条件,比如规定抛物线运动在中间帧到达最高点,或要求倒酒时杯内液面随时间逐步升高;
科学计算工具 在沙盒 Python 环境里算轨迹、动量守恒、旋转动力学等数值结果,把人类熟悉的物理推理显式写进生成上下文;
提示词优化工具 则负责把材料属性、动作阶段、因果关系重新组织成生成器更容易 "听懂" 的条件
更关键的是,NEWTON 不需要改动底层的视频生成模型 。无论用的是 LTX-Video 还是 Veo-3.1,生成器始终保持冻结。整套系统里真正需要训练的只有 Planner—— 它通过 Flow-GRPO 在真实的多轮工具调用流程中做 on-policy 优化,逐步学会:什么时候该算物理、什么时候该生成关键帧、什么时候该重写场景描述、什么时候该真正触发视频生成。
这样的设计,使得 "物理能力" 不再被困在某一个生成模型内部,而是被抽出来,变成一种可组合、可检查、可迁移的 Agent 行为。
实验表现:不改生成器,也能显著提升物理一致性