6616AI

智谱AI新版本怎么升级?网友齐呼:加个眼睛!

2026-07-01

发生了什么?

最近,智谱AI(一家中国AI公司)的灵魂人物、清华教授唐杰在社交平台上问大家:“下一个版本的GLM(他们的AI模型)你们想要什么?”结果短短时间浏览量冲到40多万,评论区最火的呼声就两个字:视觉

为什么用户这么想要“视觉”?

简单说,现在的GLM-5.2虽然很厉害——编程能力全球排名第二,能处理超长文本(比如一次记住百万个汉字),还能做深度逻辑推理。但它是个纯文本模型,没长眼睛

  • 它看不懂图片
  • 它不能根据截图或设计稿生成代码
  • 用户需要它像人类一样“看到”画面

而竞争对手,比如国外的Fable-5模型,天生就能理解文字和图像。所以用户眼巴巴地希望GLM赶紧补上这个短板。

智谱其实能做视觉,但为什么没放进去?

智谱并不是没技术。今年4月他们就发布了一个叫GLM-5V-Turbo的模型,能把视觉和文本融合在一起,看懂设计稿、截图,然后直接写出能跑的代码。唐杰本人也发表过很多视觉论文。

那为啥不把这个能力放进最强的旗舰模型里?唐杰的观点是:多模态(指同时处理文字、图片、声音)对提升AI的“智商”帮助有限。 他更关注模型能不能变得更聪明、推理能力更强。在他看来,把视觉和文本放在一起,可能反而会分散模型提升核心智能的精力。

用户的视角 vs 科学家的视角

  • 用户:希望AI马上就能看懂我贴的图、截的屏,好用才是硬道理。
  • 科学家唐杰:盯着“通用人工智能(AGI)”的终极目标,觉得眼下的视觉能力只是锦上添花,真正让AI变聪明的还是复杂推理。

这种拉扯很有意思。而且对手也在快速进步:比如Kimi、Qwen等模型已经原生支持多模态了。所以GLM-5.3到底会不会加视觉?答案很快会揭晓。

一句话总结

用户想让AI长“眼睛”,科学家想让它长“脑子”。GLM-5.3最终会怎么选?我们等着看。