机器人终于有了“物理直觉”:能预判杯子晃动、避开玻璃杯,这家中国公司做到了
这件事跟你有啥关系?
你的手机、家里的扫地机器人、工厂里的机械臂……未来的机器人不再需要程序员手把手教每一个动作,而是像人一样,看一眼场景就知道怎么干。比如你命令它“把桌上的水杯端过来,别碰旁边的玻璃杯”,它能像你一样:估算重量、预判水面晃动、绕开障碍物。
背后的技术叫“隐空间世界模型”——简单说,就是让机器人抓住变化的本质,忽略无关细节(比如杯子上的花纹、光影)。这家公司叫无界动力,成立才一年,刚拿了超过2亿美元的投资。
以前机器人为什么一换场景就“傻”?
过去的方法(VLA模型)让机器人通过看大量人类演示视频来学习,就像“死记硬背”。一旦光照变一点、桌子挪了几厘米,它立刻卡壳。
根本原因:机器人不真懂物理——它不知道用力大了水会洒,也不知道撞到杯子会倒。
无界动力的新解法:先看懂因果,再动手
他们走了一条更“聪明”的路线:隐空间世界模型 + 强化学习。
- 世界模型负责建立“世界观”:让机器人理解物理规律和因果关系。
- 强化学习负责“价值观”:通过试错练习,把理解变成精准动作。
关键创新1:不盯像素,抓“潜动作”
传统方法让机器人预测整个画面像的每一帧(包括背景、地板纹路),算力浪费巨大。
无界动力的模型只在“隐空间”(一个压缩后的特征空间)里推演,更关键的是提出了**“潜动作”**——不是人工标好机械臂怎么动,而是让模型自己从视频中发现“物体因受力而产生的变化”,像人一样直接抓住动作的本质。
这等于盘活了互联网上海量的无标签视频——机器人可以直接从日常视频里学习物理常识。
关键创新2:长时序双向因果链
以往机器人每次只能预测“下一步”,走一步看一步,误差越滚越大。
无界动力发明了“正逆双向动力学架构”:
- 正向模型:做了某个动作,推演环境会怎么变化。
- 逆向模型:看到变化,反推是哪个动作导致的。
两者互相审查——你推演的因果必须对齐,形成一个“因果闭环”。同时,模型能一次性批量预测10秒以上的连续动作序列,大大减少误差累积。
举个擦桌子的例子:
- 机器人“直觉”想从右向左擦,
- 正向模型“脑补”:这样会撞倒旁边的玻璃杯,产生坏结果,
- 逆向模型反查:是哪个动作分量导致撞到杯子?
- 机器人立刻调整:换个方向擦。
- 如果擦得好,逆向模型还会建议一种更省力、更协调的擦法,主动优化。
关键创新3:给机器人建本“错题集”
行业里数据集全是“成功案例”,机器不知道错在哪。
无界动力专门收集了几万条机器人失败、失稳、差一点成功的样本(叫AnyPhys负样本体系),让机器人在虚拟环境下反复试错,从错误中学习,相当于有了本“错题集”,越练越稳。
成绩单
- 在斯坦福等机构发起的 RoboCasa GR1 TableTop 榜单中,以 75.2%平均成功率 排名全球第一,超过英伟达等公司的模型。
- 天使轮融资超 2亿美元,红杉中国、线性资本、京东关联基金都投了。
一句话总结
无界动力让机器人从“背答案”进化到“懂因果”——这是机器人能真正走进家庭、工厂、仓库的关键一步。