Gemini 3.5 Flash实测：当模型速度进入4 G时代，Agent的游戏规则变了

速读：但真正让它在一众模型中脱颖而出的，是289tokens/秒的输出速度：首token延迟大约65毫秒，比其他前沿模型快了4倍左右。第一个测试：写一首给自己的小情诗。如果对方两三秒就能回你，那种感觉是「在聊天」，但如果要等十几秒，那种感觉是「在等一个机器给你生成内容」。

Gemini 3.5 Flash 实测：当模型速度进入 4G 时代，Agent 的游戏规则变了 | AI上新

2026年05月25日 14:15

天下武功，唯快不破。

作者｜金光浩

编辑｜靖宇

本周 Google I/O 大会上，谷歌发布了最新模型 Gemini 3.5 Flash。

Google I/O 大会发布 Gemini 3.5 Flash｜图片来源：youtube 有趣的是，隔一天国内 Qwen3.7-Max 也发布了，并且两个模型都号称自己在 Agent 场景上做了深度优化。

我看到他们的第一反应是：又是新一轮「模型大战」，国内外厂商再次开启跑分竞赛。

但这次我花了两天时间实测之后，我发现Gemini 3.5 Flash 给我最大的感受不是它有多聪明，而是它的速度快到让我不得不重新想一个问题：

当模型的响应速度从「能用」变成「实时」，整个 Agent 的使用体验会发生什么质变？

Gemini 3.5 Flash 是什么水平

Gemini 3.5 Flash 的定位很有意思：

Google 把它放在了 Flash 系列，但在 MCP Atlas 这个 Agent 基准测试上拿了 83.6% 的 SOTA 水平，甚至超过了 GPT-5.5 的 75.3% 和 Claude Opus 4.7 的 79.1%。

代码能力在 Terminal-Bench 2.1 上得分 76.2%，超过了自家上一代旗舰 Gemini 3.1 Pro 的 70.3%。

这意味着一个 Flash 定位的模型，在干活能力上已经逼近甚至超过了许多旗舰产品。

Gemini 3.5 Flash 的各项性能｜图片来源：Google 播客定价方面，输入 1.5 美元/百万 token，输出 9 美元/百万 token。它跟 Claude Opus 4.7 输入 5 美元输出 25 美元的定价比，便宜了几倍。跟 GPT-5.5 比，也有明显的价格优势。

但真正让它在一众模型中脱颖而出的，是 289 tokens/秒的输出速度：首 token 延迟大约 65 毫秒，比其他前沿模型快了 4 倍左右。

Gemini 3.5 Flash 在性能 * 速度方面独一档｜图片来源：Google 播客它在 benchmark 做到了许多维度的 SOTA，具体用起来到底怎么样？

实测：

Gemini 3.5 Flash vs Qwen3.7-Max

先提一下： Qwen3.7-Max 和 Gemini 3.5 Flash 在 Text Arena 上的分数比较接近。

Gemini 3.5 Flash 和 qwen3.7-max 的评分很接近｜图片来源：Arena Qwen3.7-Max 这个模型，在评测集上已经超过了国内的旗舰模型 Kimi 2.6、GLM-5.1、DeepSeek-V4，是目前国内的第一水平，效果也非常接近国外的顶尖模型。

Qwen 这次也专门为 Agent 可靠性设计，支持长达 35 小时的端到端自主任务执行，推理内核经过深度 GPU 优化，速度提升达 10 倍。

Qwen3.7-Max 的效果｜图片来源：Qwen 两个面向 Agent 场景的顶级选手放在一起测，真实效果会如何呢？

第一个测试：写一首给自己的小情诗

提示词：帮我写首给自己的小情诗

这是个轻量级任务，主要看基础文本生成的速度和质量。

Qwen3.7-Max 输出用了 30 秒，Gemini 3.5 Flash 用了 11 秒。速度差距接近 3 倍。

质量上，Qwen 的中文文笔确实更好一些，遣词造句更有韵味。 Gemini 虽然中文表达稍显直白，但考虑到 11 秒的响应时间，这个响应体验已经很接近即时对话了。

Qwen 3.7-max 实测｜图片来源：Zenmux Gemini 3.5 Flash 实测｜图片来源：Zenmux 如果你只是日常聊天写文字，两者都够用。

但如果场景换成 Agent 产品，用户每说一句话都在等回复，11 秒和 30 秒的差距就是「流畅对话」和「明显在等」的区别。

第二个测试：Golden Gate Bridge 3D 体素模拟

提示词：ObjectiveBuild a visually stunning, high-fidelity 3D voxel-style simulation of the Golden Gate Bridge in Three.js.Prioritize complex visuals (not simple blocks), strong atmosphere depth, and smooth ~60FPS.Visuals & Atmosphere- Lighting: a Time-of-day slider (0–24h) that controls sun position, intensity, sky color, and fog tint.- Fog: volumetric-feeling fog using lightweight sprite particles; slider 0–100 (0 = crystal clear, 100 = dense but not pure whiteout).- Water: custom shader for waves + specular reflections; blend horizon with distance-based fog (exp2) so the far water merges naturally.- Post: ACES filmic tone mapping + optimized bloom (night lights glow but keep performance).Scene Details- Bridge: recognizable art-deco towers, main span cables + suspenders, piers/anchors consistent with suspension bridge structure.- Terrain: simple but convincing Marin Headlands + SF side peninsula silhouettes.- Skyline: procedural/instanced city blocks on the SF side to suggest depth.- Traffic: up to ~400 cars via InstancedMesh, properly aligned on the deck (avoid clipping). Headlights/taillights emissive at night.- Ships: a few procedural cargo ships with navigation lights moving across the bay.- Nature: a small flock of animated birds (lightweight flocking).Night ModeAt night, enable city lights, bridge beacons, street lights, vehicle lights, ship nav lights.Tech & Controls (Important)- Output MUST be a single self-contained HTML file (e.g., golden_gate_bridge.html) that runs by opening in Chrome.- No build tools (no Vite/Webpack). Pure HTML + JS.- Import Three.js and addons via CDN using ES Modules + importmap.- UI: nice-looking sliders for Time (0–24), Fog Density (0–100), Traffic Density (0–100), Camera Zoom.- Optimization: use InstancedMesh for repeated items (cars/lights/birds), avoid heavy geometry, keep draw calls low.

我给了一个非常复杂的 Three.js 需求，要求生成一个带昼夜系统、雾气效果、交通流、船只和鸟群的金门大桥 3D 场景，输出必须是单文件 HTML，不能用任何构建工具。

Qwen3.7-Max 输出用了 204 秒，消耗了 14770 个 token。Gemini 3.5 Flash 用了 157 秒，但消耗了 35996 个 token。

Qwen 3.7-max 实测｜图片来源：Zenmux Gemini 3.5 Flash 实测｜图片来源：Zenmux 这里出现了一个有意思的现象： Gemini 虽然总耗时更短，但 token 消耗是 Qwen 的 2.4 倍。

换句话说，Gemini 完成同样任务写的代码消耗的 token 确实更「多」，这也意味着整体 Gemini 在执行任务的费用更贵。

不过 Gemini 3.5 Flash 因为每秒吐出的 token 数量远高于对手，所以还是能保持总时间反而更短。

视觉效果上，Qwen3.7-Max 的整体层次感更丰富，光影和氛围做得更细腻。Gemini 则胜在桥的结构细节，悬索、塔柱的比例更接近真实的金门大桥。

两者各有所长，都是高水准的输出。

第三个测试：macOS 菜单栏语音输入应用

提示词：https://github.com/yetone/voice-input-src

模型能力强不强，Agent 场景才是真正拉开差距的地方。

前两个测试本质上都是「一次性生成」——给个提示词，模型输出一段内容就结束了。但真实的 Agent 工作流不是这样的，它是一个长程任务，需要模型反复与环境交互、试错、修正。

所以这次，我让两个模型各自实现一个完整的 macOS 语音输入应用。这个开源项目很有意思：仓库里只有一份提示词，没有任何代码。想到朋友说的那句话：在 AI 时代，文档是资产，代码是负债。

我把需求丢给两个模型，分别在 Claude Code 上跑。需求包括：Fn 键全局监听、流式语音识别、悬浮窗动画、输入法兼容处理、LLM 纠错集成、菜单栏配置界面，最终要求输出签名好的 .app 包。

结果差距非常大：

Qwen3.7-Max 跑了 55 分钟，但是程序也没能一遍过，中间出现编译错误，需要人工介入。

Qwen 3.7-max 实测｜图片来源：Zenmux 而 Gemini 3.5 Flash 仅跑了 10 分钟，程序直接一遍过。

Gemini 3.5 Flash 实测｜图片来源：Zenmux 从 55 分钟到 10 分钟：将近 5 倍的效率差距，而且 Gemini 的输出是直接能用的，不需要额外调试。

这个结果让我有点意外：

之前写诗和做 3D 的测试里，两者差距并不大。但一旦进入 Agent 编程的场景，Gemini 3.5 Flash 的 Agent 能力和速度优势被急剧放大了。

原因也很好理解：Agent 执行长程编码任务，不是一次性输出一大段文字，而是要反复调用工具、读取反馈、修改代码、再次执行。每一轮交互都省下来的时间累积起来，差距就变得巨大。

模型体验正在进入 4G 时代

我用了一个可能不太精确，但很直观的说法：

过去大模型的生成速度更接近 3G 的体验，你知道它在工作，但你需要等。

而 Gemini 3.5 Flash，让我第一次感受到了接近 4G 的流畅度。

这种速度上的变化带来的不仅仅是「快一点」的体验提升，它直接决定了某些产品形态能不能成立。

比如 AI 陪伴这个场景：最近520 EVE 火了，王登科最近也上线了 AI 陪伴产品 The One。

在陪伴场景里，用户对回应速度的敏感度极高：

如果对方两三秒就能回你，那种感觉是「在聊天」，但如果要等十几秒，那种感觉是「在等一个机器给你生成内容」。

而 Gemini 3.5 Flash 65 毫秒的首 token 延迟，289 tokens/秒的输出速度，意味着用户几乎感受不到等待。

微信里的 AI 陪伴 The One ｜图片来源：微信但速度和智能之间存在一个很现实的矛盾：

GPT-5.4 刚出来的时候，编程效果超过了 Anthropic 4.5，但很多人还是选择继续用 Anthropic 4.5。

为什么？因为在实际工程任务里，稳定性和指令遵循的精度有时候比极致的聪明更重要：

模型想变得更聪明，通常意味着参数量更大、推理链更长，这就会导致速度下降。

所以行业里开始出现一种分化：有的公司死磕模型能力上限，有的公司则专注于在保持够用的智能水平的同时，把速度推到极致。

Gemini 3.5 Flash 选择了后者，而且做得相当激进：它甚至把默认推理档位从上一代 Flash 的 High 降到了 Medium，主动降低推理深度来换取速度提升。

Google 在这里做了一个关键的决策：对于 Agent 场景来说，快比聪明更重要。

这个判断对不对？从 Agent 的发展趋势来看，它很可能是对的。

速度对 Agent 意味着什么

回到文章开头那个问题：

当模型的响应速度从「能用」变成「实时」，Agent 的使用体验会发生什么质变？

我想从两个维度来回答。

第一个是实时交互的体验升级。

Claude Code 这类 Agent 产品在执行任务时，用户能明显感觉到模型在「思考」「等待」「处理」的间隙。

这些间隙加起来，一个 20 分钟的任务可能有 5 分钟是你在看它转圈。

当速度快 4 倍，这些间隙被大幅压缩，整个过程变得更像「你交代任务，它流畅执行」，而不是「你交代任务，它断断续续地干」。

第二个维度更有意思，也是我觉得 Gemini 3.5 Flash 真正的价值所在：

它让 Agent 能在相同时间内完成更多的事。

想象一下这样一个场景。假设你让一个 Agent 跑 24 小时来完成一个大型项目。如果模型输出速度是原来的 4 倍，在 Agent 调用工具的时间不变的前提下，一天内的产出可能提升 2 到 3 倍。

这个计算很粗略，因为 Agent 执行过程中有大量时间花在等待工具返回结果、读取文件、编译代码上，这些时间不会因为模型变快而缩短。但模型思考和输出代码的那部分时间确实能被大幅压缩。

而最近的趋势是， Agent 执行任务的时间越来越长：

Claude Code 在不断优化它的任务编排能力；OpenAI Codex 最近推出了 /goal 功能，可以让Agent连续运行几小时甚至几天直到任务完成；各家都在努力拉长模型的持续工作时间：从半小时的任务到几小时的项目，再到 Qwen3.7-Max 宣称支持的 35 小时端到端执行。

任务时间线被拉长的同时，模型响应速度的价值也在同步放大：

一个 10 分钟的任务，省几分钟你可能无感。

但当任务拉长到 10 小时、24 小时，省下的时间可能是小时级的。

即使只算模型输出环节快 4 倍，一天的长程任务也能多挤出好几个小时的有效产出。

主题：Gemini3.5Flash|速度|实测|Gemini3.5Flash实测|Qwen3.7-Max