智谱发布GLM-5V-Turbo，编程大模型开始“长眼睛”_科技

智谱发布GLM-5V-Turbo，编程大模型开始“长眼睛”

2026-04-02 14:27 智谱

智谱发布GLM-5V-Turbo，编程大模型开始“长眼睛”23

4月2日，智谱正式推出其首个原生多模态Coding基座模型GLM-5V-Turbo。

与以往需要先将设计稿转化为文字描述再生成代码的流程不同，这款模型从预训练阶段就深度融合了视觉与文本能力，试图解决大模型编程时“看不懂图”的痛点。

这意味着开发者不再局限于纯文本输入，GLM-5V-Turbo能够直接理解图片、截图、视频甚至复杂的设计稿，并据此生成可运行的前端工程代码。

其核心突破在于打通了“看到画面”与“写出代码”之间的闭环，上下文窗口拓展至200k，足以处理完整的工程项目或长篇技术文档。

在实际应用中，该模型展现出了较强的视觉编程能力，无论是根据设计稿进行前端复刻，还是让智能体自主浏览网页并梳理信息，GLM-5V-Turbo都试图让机器在图形用户界面操控方面变得更加拟人化。

特别是在与智能体框架结合时，模型能够实现“看懂环境、规划动作、执行任务”的完整链路。

将视线拉宽，智谱此次的发布恰好踩在了全球大模型竞争的一个微妙节点上。就在一个月前，OpenAI推出了GPT-5.4，其核心卖点同样是“原生电脑操控能力”，能够在OSWorld-Verified基准上取得75.0%的成功率，甚至超越了人类平均水平。

而在更早的2月，Google DeepMind的Gemini 3.1 Pro也强调了其在视觉推理和多模态编码上的提升，并在ARC-AGI-2上拿下了77.1%的高分。

至于Anthropic，其Claude系列不仅通过Claude Code深度整合进Apple的Xcode，更在C++代码库的漏洞挖掘中展示了惊人的执行效率。

不难发现，从单纯的文本对话到能看懂界面的“视觉脑”，再到能直接操控电脑的“数字手”，头部玩家们的竞争焦点已高度统一。

摩根大通近期的一份研报也印证了这一趋势，报告指出中国AI行业已进入商业化关键期，竞争焦点正从单纯的价格战转向模型能力的硬实力比拼。

在编码和智能体应用成为主要催化剂的当下，模型能否高质量地完成多步骤的复杂任务，远比每百万token的单价更具商业说服力。

GLM-5V-Turbo的推出，确实让智谱在视觉编程这条赛道上补上了重要一环。但当GPT-5.4已经通过Playwright等库实现了模拟鼠标键盘的实体操控，当Claude已经能在终端里直接跑测试、装依赖。

一个值得思考的问题也随之浮现，在通往通用智能体的道路上，让模型“看懂画面”是否足够，还是说，真正的门槛其实在于模型如何像人一样“动手操作”并处理长程任务的失败与纠错？

［本文作者i黑马，i黑马原创。如需转载请联系微信公众号（ID:iheima）授权，未经授权，转载必究。］