智谱AI新版本怎么升级？网友齐呼：加个眼睛！

最近，智谱AI（一家中国AI公司）的灵魂人物、清华教授唐杰在社交平台上问大家：“下一个版本的GLM（他们的AI模型）你们想要什么？”结果短短时间浏览量冲到40多万，评论区最火的呼声就两个字：视觉。

简单说，现在的GLM-5.2虽然很厉害——编程能力全球排名第二，能处理超长文本（比如一次记住百万个汉字），还能做深度逻辑推理。但它是个纯文本模型，没长眼睛：

而竞争对手，比如国外的Fable-5模型，天生就能理解文字和图像。所以用户眼巴巴地希望GLM赶紧补上这个短板。

智谱并不是没技术。今年4月他们就发布了一个叫GLM-5V-Turbo的模型，能把视觉和文本融合在一起，看懂设计稿、截图，然后直接写出能跑的代码。唐杰本人也发表过很多视觉论文。

那为啥不把这个能力放进最强的旗舰模型里？唐杰的观点是：多模态（指同时处理文字、图片、声音）对提升AI的“智商”帮助有限。 他更关注模型能不能变得更聪明、推理能力更强。在他看来，把视觉和文本放在一起，可能反而会分散模型提升核心智能的精力。

这种拉扯很有意思。而且对手也在快速进步：比如Kimi、Qwen等模型已经原生支持多模态了。所以GLM-5.3到底会不会加视觉？答案很快会揭晓。

用户想让AI长“眼睛”，科学家想让它长“脑子”。GLM-5.3最终会怎么选？我们等着看。