开源版的GPT Image 2,信息图、连续图文、本地部署全拿下

开源版的 GPT Image 2,信息图、连续图文、本地部署全拿下|商汤SenseNova U1实测
2026年04月29日 19:
最近 GPT Image 2 火了之后,网上都是那些彻底以假乱真的 AI 生成图片。大模型在视觉这条路上越走越远,让人兴奋又让人敬畏。
而 GPT Image 2 在眼下的 AI 生图领域,几乎是没什么好争的。但如果说云端闭源收费的最好模型是 GPT Image 2, 那能部署在本地的,免费开源模型或许会是 SenseNova U1 。
▲由 SenseNova U1 生成
SenseNova U1 是商汤最新发布的一个开源的多模态模型,它的 Lite 系列 8B 和 A3B 参数版本,目前已经在 Hugging Face 和 GitHub 上开源。
从模型参数和选择开源的路线上,我们就能看到它和 GPT Image 2 是不太一样的方向。
APPSO 也提前拿到了测试资格,我们发现商汤这款新一代原生理解生成统一模型,就开源模型来说,已经做到了最好水平。
它带来了大模型行业首创的连续图文生成输出,就是用单一模型就能连贯输出图片和文字,这个新鲜很值得去试一试。
目前 SenseNova U1 开源模型的权重已经在 Hugging Face 和 GitHub 上开放下载。
GitHub:https://github.com/OpenSenseNova/SenseNova-U1
Hugging Face:https://huggingface.co/collections/sensenova/SenseNova-U1
带着图片的思考
我们可能遇到过这样的需求,想让 AI 解释一个复杂概念,同时配上示意图,而且图要跟着文字的逻辑走,解释到第几步,图里就画到第几步。
一般的模型可能会直接采用生成代码的方式来解决这个问题,像 Claude 使用的流式构图,或者一些 Vibe Coding 的网页,包含文字和配图。
但是要完全用一个模型同时在回复流里面,生成文字和图片,并且不借助外部工具的调用,基本上现有的模型做不到这一点。因为文字生成和图像生成在模型底层,往往是两件事。
SenseNova U1 的第一项特点,就是在单一模型上进行连续的图文创作输出。
比如我们试了一个场景,让他生成一份简单的绘本故事,讲述一只小熊历经四季的变化。