刚刚,姚顺雨腾讯首秀来了!三个月重建混元新模型,实测到底什么水平
这周,中国大模型的更新让人窒息。前脚阿里最强旗舰 Qwen 3.6 Max刚发布,月之暗面的 Kimi 2.6 就马上登场,DeepSeek V4 也箭在弦上。
刚刚,混元的 Hy3 Preview 也正式亮相,这是腾讯首席 AI 科学家姚顺雨主导的一个模型。
姚顺雨表示,Hy3 preview是混元大模型重建的第一步。他希望通过这次开源和发布,不断提升 Hy3 正式版的实用性,以及模型在真实场景中的综合表现,并开始探索特色模型能力。
从去年年底姚顺雨加入腾讯,入职首席 AI 科学家,并负责 AI Infra 及大语言模型,1 月底开始启动模型训练,三个月的时间完成了从训练到上线。
这个大版本升级的混元模型,在短时间内,不仅对底层基础设施进行了系统性重建,还包括预训练和强化学习在内的底层框架,全部推倒重来。
最后的答卷是一个快慢思考融合的 MoE(混合专家)语言模型,总参数 295B,激活参数 21B,最大支持 256K 上下文长度。
在这个行业动辄吹嘘万亿(1T+)参数的时代,Hy3 preview 的数据显得有些克制。但这个参数很明显是兼顾了性能和成本之间的平衡,让模型能更好落地在不同场景。
而 300B 这个量级,复杂的数理推理、长上下文理解和指令遵循能力都已经被充分激活;如果继续强行扩大规模到万亿参数,一边是训练时间加倍,在实际的表现上,也容易出现通信延迟、吞吐瓶颈和推理成本翻倍等问题。
不过,姚顺雨也提到,他们在继续扩大预训练和强化学习的规模,提升模型的智能上限。
在多个真实生产和生活场景 benchmark,以及腾讯混元的 CL-bench 上表现对比前代,提升幅度明显。
因此,Hy3 preview 这次的定位非常明确,要到真实世界去解决复杂工程问题。
为了验证 Hy3 preview 是否能在真实世界去解决各种问题,具体的模型表现如何,APPSO 也提前拿到了内测资格,在元宝 App 和 WorkBuddy 桌面端应用了实测了一段时间。
编程和 Agent,混元开始接住真实的工程需要
编程能力目前还是各家大模型发力的重点,前几天还有外媒报道,谷歌正在成立一个新的团队,专攻 AI Coding。
这次的腾讯混元新一代大模型 Hy3 preview 同样在通用能力的提升基础上,能够适用于编程和现在热门的智能体场景。
例如我们用之前 GPT 5.4 模型发布时使用的编程测试案例,来看看 Hy3 preview 的具体表现。
▲提示词:创建一个超写实的旧金山金门大桥交互式 3D 体验,允许我自由飞翔环绕。环境需包含真实的照明、水体、雾气、大气效果、悬索、车流、周边海岸线及城市背景,并具备电影级的尺度感和细节。让我能通过直觉式的飞行控制和多视角(包括近距离结构穿梭和大场景俯瞰)平滑地进行场景导航。核心要求是真实感、沉浸感和视觉忠实度。在测试运行时,务必从多个距离和角度环绕大桥飞行,验证导航的平稳性与稳定性,并确保场景无论远近都极具说服力。你可以利用 imagegen 技能生成建模所需的初始资产。视觉效果绝不能有任何“方块感”或“廉价感”,必须达到高保真、极度平滑、近乎照片的质感。桥面上应有真实的车辆通行。不必急于求成,如果需要,即使耗时一小时也可以。请不断迭代,直至完美。
虽然最后的结果并不是非常写实,主要差距还是在于所使用的工具限制。但整个体验还是非常流畅和丝滑,我们能使用 WASD 键来控制自己第一人称视角的飞行,同时 Hy3 preview 也自动写了一些默认视角。
而在让它写一些简单的小游戏时,像是同样来自 GPT-5.4 的提示词,做一个游乐场的经营类小游戏。
▲提示词:创建一个可以在浏览器中构建并导航的交互式等轴测 (isometric ) 主题公园模拟游戏。利用 imagegen 确立整体视觉风格,并生成全套游戏资产,包括游乐设施、路径、地形、树木、水体、食品摊位、装饰物、建筑、图标以及 UI 插画。游戏世界必须具备高度的统一感、精致度以及丰富的视觉表现,艺术风格需高端且适配等轴测视角。允许平滑地铺设或拆除路径、添加景点、布置景观并环绕公园移动,同时能够监控游客活动、设施状态以及公园的发展情况。系统需包含可信的游客移动算法,以及简单的公园管理系统(如资金、清洁度、排队和满意度)。确保整体体验充满趣味、逻辑清晰且完整,而非粗糙的原型。在优先级上,趣味性、易读性以及出色的游戏手感高于写实度。在进行玩法测试时,务必通过多轮操作来构建并扩张公园。验证设施放置与导航是否顺畅,确认游客对公园布局及景点的反应,并确保视觉效果、UI 以及交互体验稳定且统一。
还是不可免俗的使用了「渐变紫」的套装,只能说界面审美这一块,除了编程能力的提升,还是需要额外的一些微调。
好在整个游戏是能玩的,我们可以真实的经营这个游乐场,通过铺路、放置新的游乐设施以及服务设施等场地,来赚取收入,控制人流。
而经典的「骑自行车的鹈鹕」测试,我们把它换成了更难一点的,开着汽车的长颈鹿。生成的 SVG 画面是动态的,太阳、云朵和车子都在移动,基础的 SVG 元素都能做到。
主题:模型|混元|Hy3preview|姚顺雨