AI终于能“边看边行动”了:Om AI发布全球首个能实时看视频并指挥机器人的模型
2026-07-02
以前我们熟悉的AI识别视频,通常是先录一段视频,然后一帧一帧截图分析,最后给出答案。这就像你拍了一张照片再问AI“照片里有什么”——它只能告诉你已经发生的事。
Om AI联汇最新发布的VLX系列模型彻底改变了这一点。它被称作“全球首个面向物理世界的端侧流式多模态模型”,翻译成大白话就是:AI能像人眼一样持续看着周围,同时理解正在发生什么,并且立刻做出反应——整个过程在设备本地完成,不用把数据传回云端。
三个模型各司其职
VLX系列由三个模型协同工作:
- VLX-Flow:负责“持续看”。它不像传统AI那样等你问“这是什么?”,而是主动吸收新画面,你一问它就能秒答。延迟最低只要0.06秒。
- VLX-Seek:负责“找东西”。它不猜坐标位置,而是从一堆候选区域里选出正确的那一个,类似从地图上点出目标,更加可靠。
- VLX-Go:负责“动起来”。它直接把看到的景象转化成机器人可以执行的路线和动作,比如转弯、避障,而不是只给一段文字建议。
对普通人有什么用?
想象一下:
- 你家的扫地机器人不再需要提前扫图,而是边走边看,看到障碍物即时避开,看到脏东西立刻绕回去清理。
- 送餐机器人在拥挤的食堂里能实时判断前方有人要让路,而不是撞到了才停下。
- 安防摄像头发现有人尾随即刻指挥无人机跟踪,所有处理都在摄像头里完成,不会因为网络卡顿而延迟。
这就是“流式多模态”的力量——视觉信息不是“截一帧”的方式进入模型,而是以“连续流”的方式持续进入。模型不是“看完再说”,而是“边看边理解、必要时主动行动”。
小、快、准、行
VLX系列有四种大小可选(从0.6B到10B参数),体积轻巧,适合装在手机、摄像头或机器人上。它专门为实时视频流和有限算力的终端设备重新设计,而不是把云端的大模型硬塞进小设备。
本文信息来源于Om AI的官方发布,量子位获授权转载。