登录

Gemini 3中文测评结果发布:首超GPT


速读:快科技11月19日消息,2025年末全球AI竞技场再掀波澜,测评机构SuperCLUE最新报告显示:谷歌Gemini-3-Pro-Preview在SuperCLUE 9月中文大模型基准测评中获得了70.80的总分。
Gemini 3中文测评结果发布:首超GPT-5 全球第二

Gemini 3中文测评结果发布:首超GPT-5 全球第二

2025年11月19日 21:58

快科技11月19日消息,2025年末全球AI竞技场再掀波澜,测评机构SuperCLUE最新报告显示:谷歌Gemini-3-Pro-Preview在SuperCLUE 9月中文大模型基准测评中获得了70.80的总分。

它超越 GPT-5(high) 1.43 分,较GPT-5.1(high)落后1.71分,位居全球第二。 Gemini-2.5-Pro目前排名全球第七。

Gemini-3-Pro-Preview的推理效率相较于Gemini-2.5-Pro有些许提升,从平均每题花费32.2秒降低到31.9秒。推理成本从24.5元/百万Tokens上升到32.0元/百万Tokens。

据了解,本次测评覆盖六大核心维度,数学推理、科学推理、代码生成(含web开发)、智能体Agent(多轮工具调用)、幻觉控制、精确指令遵循。

与GPT-5.1(high)相比,Gemini-3-Pro-Preview的优势集中体现在幻觉控制,科学推理旗鼓相当,而在其他四个方面全面落败。

【本文结束】如需转载请务必注明出处:

推理

新浪众测

新浪众测

新浪科技公众号

新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

马斯克亲自点名Karpathy迎战Grok 5!别神话LLM,AGI还要等十年

一夜封神!谷歌Gemini 3.0 Pro发布即屠榜 马斯克奥特曼祝贺点赞

“冷美人”直播洗头:10万+网友围观

从没想过的市场!研究生上门教骑自行车:一次收几百块

董明珠再回应 3.2 万元玫瑰空调:在格力之前没有人将空调打造成艺术品,企业应带动上下游共同发展

互联网中的瑞士军刀 Cloudflare挂了导致全球一半网站宕机

苹果10月在华销量大增37%:iPhone 17卖爆

董明珠再回应3.2万元玫瑰空调:在格力之前没有人将空调打造成艺术品,企业应带动上下游共同发展

庆余年:千面狐BOSS攻略

比亚迪汽车:方程豹钛系列累计销量达 10 万台,历时 7 个月

拼多多Q3财报发布:营收1083亿元 净利润313.8亿元

雷军罕见硬刚回应!同日公关负责人被曝调整

新华社痛批车圈三大“歪风”:“浮夸” “巧嘴” “语言腐败”

董明珠再回应 3.2 万元玫瑰空调:在格力之前没有人将空调打造成艺术品,企业应带动上下游共同发展

定位“SSS 级战斗天使”:vivo S50 Pro mini 手机全球首批搭载第五代骁龙 8 移动平台

广汽:全国率先获批时速 120 公里 L3 高速测试牌照,基于华为深度合作打造的首款旗舰轿车昊铂 A800

未来五年研发投入欲超2000亿!卢伟冰:2030年小米成为世界前100强

10年费用仅4035美元!陶琳:特斯拉是维护成本最低的品牌

“冷美人”直播洗头:10万+网友围观

为大国首都高质量发展描绘新图景 | 新京报社论

打着上市公司、国资旗号的“高收益项目”,暴雷了

主题:推理|Gemini-3-Pro-Preview|Gemini3中文测评结果发布