NEWTON:从「等物理涌现」到「请牛顿进工具箱」，Agent驱动的视频生成新范式

速读：然而，当我们把目光从“像不像”转向“对不对”时，一个深刻的问题开始浮出水面：当前视频生成模型虽然擅长制造视觉真实感，却并不真正理解物理世界。从「等物理涌现」到「请牛顿进工具箱」，Agent驱动的视频生成新范式2026年06月11日19:00机器之心Pro近年来，视频生成模型发展迅猛。比如一句“啤酒被倒进杯子直到装满”，看似已经描述清楚了事件，但实际上省略了大量决定动态过程的参数：容器形状、泡沫生成、液面上升速度等。

2026年06月11日 19:0

近年来，视频生成模型发展迅猛。从 Sora、Veo、Kling 到一系列开源视频生成模型，文生视频已经逼近真实影像的观感 —— 画面清晰、镜头流畅、风格可控，一句话就能生成一段观感不错的视频。

然而，当我们把目光从 “像不像” 转向 “对不对” 时，一个深刻的问题开始浮出水面：当前视频生成模型虽然擅长制造视觉真实感，却并不真正理解物理世界。

一个球可能在没有接触的情况下突然改变速度；一个下落物体可能无视重力；碰撞、流体、切削、堆积、弹跳等动态过程，经常看起来合理，却经不起基本物理常识的检验。在 VideoPhy-2 这类面向物理常识的视频评测中，即便是表现最好的模型，联合准确率也只有 32.6%。这说明，视频生成距离真正的 “世界模拟器”，仍然存在一条关键鸿沟。

于是，浙江大学、香港理工大学、树根科技与三一集团联合提出的 NEWTON（Neural Agentic World-Aware Tool-Orchestrated Navigation） —— 把 Agent 范式搬进视频生成里：与其继续把物理硬塞进生成器的权重里，不如让一个会规划、会调用物理工具、会自查自纠的 Agent，把生成器 “降级” 成它工具箱里的一件兵器。

论文标题：NEWTON: Agentic Planning for Physically Grounded Video Generation

论文地址：https://arxiv.org/abs/2605.18396

项目主页：https://newton026.github.io/newton/

视频生成为什么总是 “物理不稳”？

过去我们习惯认为，只要模型足够大、数据足够多，它终将学会真实世界的物理规律。但 NEWTON 指出，问题的根源并不在模型本身 —— 而是输入本身就不足以唯一确定一段物理自洽的视频，再大的模型也补不回输入端缺失的信息。

文本提示词本质上是对物理世界的高度压缩。比如一句 “啤酒被倒进杯子直到装满”，看似已经描述清楚了事件，但实际上省略了大量决定动态过程的参数：容器形状、泡沫生成、液面上升速度等。模型拿到的只是一句自然语言，却被期待生成一个完整、连续、符合物理规律的视频。换句话说，模型是在信息严重不足的前提下，被要求交出一个物理自洽的完整答案。

关键信息一旦缺失，模型就只能在不完整条件下做幻觉式补全：单帧也许漂亮，时间维度上却处处露馅 —— 液面不升高、刀划过木头却没有凹槽、颗粒倒下却不堆积、物体碰撞却毫无反应。

所以，物理可靠的视频生成不能押在一句 prompt 上。它至少要同时满足三件事：信息要够，能补齐影响动态的物理变量；过程要活，能针对不同场景调用不同的物理工具；结果要能查，生成之后能发现问题、回头修正。

而现有方法往往只能顾上其中一两条。端到端模型把物理知识隐式压进参数，输入端的条件本身就不完整；ControlNet 一类方法依赖预设的单一模态信号，难以随场景切换，缺乏动态性；单轮生成则没有反馈回路，结果不对也无从修起。

NEWTON 的破局思路：把生成变成一个可规划、可验证的过程

NEWTON 的核心变化，是重新定义视频生成系统的工作方式。

传统范式很短：用户输入 prompt，生成器直接输出视频。这意味着所有物理细节都得由生成器自己一次性猜出来。NEWTON 把这一步改造成了一个多轮 Agent 循环 ——Planner 先分析当前任务缺哪些物理信息、该调哪些工具，Executor 执行工具调用和视频生成，Verifier 给结果打一个物理合理性分数，再把反馈写回下一轮规划。视频生成器在这个循环里不再是唯一主角，只是工具箱里的一个动作；真正负责组织过程的，是可训练的 Planner。

工具库覆盖的是互补的物理维度：

关键帧生成工具给视频补充时间边界条件，比如规定抛物线运动在中间帧到达最高点，或要求倒酒时杯内液面随时间逐步升高；

科学计算工具在沙盒 Python 环境里算轨迹、动量守恒、旋转动力学等数值结果，把人类熟悉的物理推理显式写进生成上下文；

提示词优化工具则负责把材料属性、动作阶段、因果关系重新组织成生成器更容易 "听懂" 的条件

更关键的是，NEWTON 不需要改动底层的视频生成模型。无论用的是 LTX-Video 还是 Veo-3.1，生成器始终保持冻结。整套系统里真正需要训练的只有 Planner—— 它通过 Flow-GRPO 在真实的多轮工具调用流程中做 on-policy 优化，逐步学会：什么时候该算物理、什么时候该生成关键帧、什么时候该重写场景描述、什么时候该真正触发视频生成。

这样的设计，使得 "物理能力" 不再被困在某一个生成模型内部，而是被抽出来，变成一种可组合、可检查、可迁移的 Agent 行为。

实验表现：不改生成器，也能显著提升物理一致性

主题：模型|视频生成|信息|视频生成模型