智谱发布GLM-5 V-Turbo模型:编程告别纯文本一张图片就能生成代码
快科技4月2日消息, 智谱正式发布面向视觉编程打造的GLM-5V-Turbo多模态Coding基座模型。
该模型从预训练阶段深度融合视觉与文本能力, 打破了纯文本输入的编程局限,能看懂设计稿、截图、网页界面并生成可运行代码,真正实现了看得懂画面、写得出代码。
GLM-5V-Turbo拥有三大核心特性:
其一为原生多模态Coding基座,可原生理解图片、视频、设计稿等多模态输入,支持画框、截图等多模态工具调用,上下文窗口拓展至200k,让Agent的感知-行动链路延伸至视觉交互;
其二是兼顾视觉与编程能力,在多模态Coding、GUI Agent等核心基准上表现领先,且通过多任务协同RL技术,保证纯文本场景下的编程、推理能力不退化;
其三是深度适配Claude Code与龙虾场景,可实现“看懂环境→规划动作→执行任务”的完整闭环,还配备全套官方Skills,开箱即可使用。
实测数据显示,GLM-5V-Turbo在设计稿还原、视觉代码生成等基准上均取得领先,在AndroidWorld、WebVoyager等GUI环境操控测试中表现突出,纯文本Coding能力也保持稳定。
在龙虾Agent相关测试中,模型接入后让龙虾拥有真正的视觉能力,在PinchBench等评测中斩获优异成绩,复杂任务执行能力得到验证。
目前GLM-5V-Turbo已落地图像即代码、龙虾视觉赋能等典型场景,能实现前端复刻、GUI自主探索复刻,还能让龙虾完成K线图解读、图文报告生成等任务。
用户可通过AutoClaw、Z.ai等产品体验,也能通过官方API接入,多款官方Skills也已上线ClawHub。
【本文结束】如需转载请务必注明出处:



新浪科技公众号
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

“不好看就退票”服务,能救电影院吗?
微信封禁自家“兄弟”红包,打的什么牌?
华住,比携程还会捞金?
张雪身价上亿还在用两千多块钱坏手机:没给自己买过一个豪华的东西
梦回P20时代!华为Pura 90系列回归渐变色:最美Pura来了
刚刚,阿尔忒弥斯2号成功发射,人类时隔54年重返月球
字节Seed启动大模型校招 全球招募百位AI人才
广汽丰田铂智7光电测试成绩出炉 综合续航达成率86%
联想杨元庆:两年后营收冲刺1000亿美元
FREELANDER神行者全球首秀,首款概念车Concept 97惊艳亮相
“张雪”被全球更多人知道了 全球搜索热度暴涨
时长5个小时!雷军宣布:周四晚直播拆新SU7 每个细节逐一拆解和讲透
智能手表泄露高精度GPS 数据!某国军官日常跑步暴露军事机密致重大损失
又来!美国参议员提议全面封杀中国汽车:呼吁盟友一起封堵
张雪机车10天订单量逼近万台:店员手机被打爆 一天三充
智能手表泄露高精度GPS 数据!某国军官日常跑步暴露军事机密致重大损失
AI清明短片《纸手机》爆火 网友:最有人味的短片
凯越机车致歉:没有否定张雪贡献 直播间标题引发外界误解和争议
真诚才是必杀技!青岛保时捷女销售再夺一季度销冠
罚款我认!张雪机车禁新手购820RR或将面临处罚 官方回应
你信吗!日本主帅霸气发言引热议:我相信球队能赢得世界杯冠军
消息称原特斯拉中国区总经理入职小米 负责汽车销售
张雪称影视版权给顶级团队:将提供顶级真实比赛资源
主题:GLM-5V-Turbo|设计稿