AI终于能“边看边行动”了：Om AI发布全球首个能实时看视频并指挥机器人的模型

以前我们熟悉的AI识别视频，通常是先录一段视频，然后一帧一帧截图分析，最后给出答案。这就像你拍了一张照片再问AI“照片里有什么”——它只能告诉你已经发生的事。

Om AI联汇最新发布的VLX系列模型彻底改变了这一点。它被称作“全球首个面向物理世界的端侧流式多模态模型”，翻译成大白话就是：AI能像人眼一样持续看着周围，同时理解正在发生什么，并且立刻做出反应——整个过程在设备本地完成，不用把数据传回云端。

三个模型各司其职

VLX系列由三个模型协同工作：

想象一下：

这就是“流式多模态”的力量——视觉信息不是“截一帧”的方式进入模型，而是以“连续流”的方式持续进入。模型不是“看完再说”，而是“边看边理解、必要时主动行动”。

VLX系列有四种大小可选（从0.6B到10B参数），体积轻巧，适合装在手机、摄像头或机器人上。它专门为实时视频流和有限算力的终端设备重新设计，而不是把云端的大模型硬塞进小设备。

本文信息来源于Om AI的官方发布，量子位获授权转载。