智谱发布GLM-5V-Turbo,编程大模型开始“长眼睛”
2026-04-02 14:27 智谱

智谱发布GLM-5V-Turbo,编程大模型开始“长眼睛”23

4月2日,智谱正式推出其首个原生多模态Coding基座模型GLM-5V-Turbo。

与以往需要先将设计稿转化为文字描述再生成代码的流程不同,这款模型从预训练阶段就深度融合了视觉与文本能力,试图解决大模型编程时“看不懂图”的痛点。

这意味着开发者不再局限于纯文本输入,GLM-5V-Turbo能够直接理解图片、截图、视频甚至复杂的设计稿,并据此生成可运行的前端工程代码。

其核心突破在于打通了“看到画面”与“写出代码”之间的闭环,上下文窗口拓展至200k,足以处理完整的工程项目或长篇技术文档。

在实际应用中,该模型展现出了较强的视觉编程能力,无论是根据设计稿进行前端复刻,还是让智能体自主浏览网页并梳理信息,GLM-5V-Turbo都试图让机器在图形用户界面操控方面变得更加拟人化。

特别是在与智能体框架结合时,模型能够实现“看懂环境、规划动作、执行任务”的完整链路。

将视线拉宽,智谱此次的发布恰好踩在了全球大模型竞争的一个微妙节点上。就在一个月前,OpenAI推出了GPT-5.4,其核心卖点同样是“原生电脑操控能力”,能够在OSWorld-Verified基准上取得75.0%的成功率,甚至超越了人类平均水平。

而在更早的2月,Google DeepMind的Gemini 3.1 Pro也强调了其在视觉推理和多模态编码上的提升,并在ARC-AGI-2上拿下了77.1%的高分。

至于Anthropic,其Claude系列不仅通过Claude Code深度整合进Apple的Xcode,更在C++代码库的漏洞挖掘中展示了惊人的执行效率。

不难发现,从单纯的文本对话到能看懂界面的“视觉脑”,再到能直接操控电脑的“数字手”,头部玩家们的竞争焦点已高度统一。

摩根大通近期的一份研报也印证了这一趋势,报告指出中国AI行业已进入商业化关键期,竞争焦点正从单纯的价格战转向模型能力的硬实力比拼。

在编码和智能体应用成为主要催化剂的当下,模型能否高质量地完成多步骤的复杂任务,远比每百万token的单价更具商业说服力。

GLM-5V-Turbo的推出,确实让智谱在视觉编程这条赛道上补上了重要一环。但当GPT-5.4已经通过Playwright等库实现了模拟鼠标键盘的实体操控,当Claude已经能在终端里直接跑测试、装依赖。

一个值得思考的问题也随之浮现,在通往通用智能体的道路上,让模型“看懂画面”是否足够,还是说,真正的门槛其实在于模型如何像人一样“动手操作”并处理长程任务的失败与纠错?

88.jpg