杭州团队做出全球首个能实时看世界并行动的AI模型，已经能跑在手机里

这件事是什么？跟普通人有什么关系？

简单说，杭州一家叫Om AI的团队，做出了三款能“边看边想边行动”的AI模型，统称VLX。它们厉害在哪？你手机里的AI助手通常是“你问它答”，但VLX可以一直盯着摄像头传来的画面，像人一样不间断地观察、找到目标、然后直接指挥机器去做事，而且全部在本地设备上完成，不需要联网。这意味着未来无人机避障、机器人帮你拿东西、安防摄像头实时盯人，会更快更安全（数据不出门）。

三款模型各司其职

VLX-Flow（实时感知）：就像给AI装了一双永不闭上的眼睛。它不等人按快门，而是让视频像流水一样不断涌入，一边看一边更新对周围环境的理解。处理单路视频最快只要0.06秒，还能同时看好几路。
VLX-Seek（精准定位）：光看见不够，还得“看得准”。它能听懂你说“找出左边那把蓝色椅子”，然后用一种叫“区域令牌”的新方法快速找到目标，比传统方式更准更快，而且模型很小，适合放在手机里。
VLX-Go（行动决策）：知道了目标在哪，它还能直接指挥机器人“往哪走、怎么躲开障碍”。它不啰嗦，直接算出接下来几秒应该怎么动，参数只有0.6B（非常小），却能在导航、跟随等任务上超过更大的模型。

为什么一定要跑在本地设备（端侧）？

因为物理世界不等人。如果一架无人机每次都要把画面传回云端、等云端算完再把指令发回来，可能早就撞上了。而且很多场景（比如工厂、家庭）网络差、隐私要求高。VLX从一开始就为手机、机器人这些“小电脑”量身设计，不是先做大再压缩，而是直接在小算力上长出高效的模型。

跟过去有什么不同？

过去的多模态模型更像“百科全书”，你问“这是什么”它能回答；而VLX更像“护工”或“司机”——不需要你一直问，它自己在持续观察、判断、行动。两者不是谁替代谁，而是分工不同。Om AI团队之前还做过开源项目VLM-R1，上线12小时就获得了2000多颗GitHub星标。