杭州团队做出全球首个能实时看世界并行动的AI模型,已经能跑在手机里
2026-06-28
这件事是什么?跟普通人有什么关系?
简单说,杭州一家叫Om AI的团队,做出了三款能“边看边想边行动”的AI模型,统称VLX。它们厉害在哪?你手机里的AI助手通常是“你问它答”,但VLX可以一直盯着摄像头传来的画面,像人一样不间断地观察、找到目标、然后直接指挥机器去做事,而且全部在本地设备上完成,不需要联网。这意味着未来无人机避障、机器人帮你拿东西、安防摄像头实时盯人,会更快更安全(数据不出门)。
三款模型各司其职
- VLX-Flow(实时感知):就像给AI装了一双永不闭上的眼睛。它不等人按快门,而是让视频像流水一样不断涌入,一边看一边更新对周围环境的理解。处理单路视频最快只要0.06秒,还能同时看好几路。
- VLX-Seek(精准定位):光看见不够,还得“看得准”。它能听懂你说“找出左边那把蓝色椅子”,然后用一种叫“区域令牌”的新方法快速找到目标,比传统方式更准更快,而且模型很小,适合放在手机里。
- VLX-Go(行动决策):知道了目标在哪,它还能直接指挥机器人“往哪走、怎么躲开障碍”。它不啰嗦,直接算出接下来几秒应该怎么动,参数只有0.6B(非常小),却能在导航、跟随等任务上超过更大的模型。
为什么一定要跑在本地设备(端侧)?
因为物理世界不等人。如果一架无人机每次都要把画面传回云端、等云端算完再把指令发回来,可能早就撞上了。而且很多场景(比如工厂、家庭)网络差、隐私要求高。VLX从一开始就为手机、机器人这些“小电脑”量身设计,不是先做大再压缩,而是直接在小算力上长出高效的模型。
跟过去有什么不同?
过去的多模态模型更像“百科全书”,你问“这是什么”它能回答;而VLX更像“护工”或“司机”——不需要你一直问,它自己在持续观察、判断、行动。两者不是谁替代谁,而是分工不同。Om AI团队之前还做过开源项目VLM-R1,上线12小时就获得了2000多颗GitHub星标。