英伟达给机器人开了个“技能库”,让机器人也能像人一样从失败中长记性
发生了什么?
英伟达最近开源了一套叫 ASPIRE 的系统,可以简单理解成一个让机器人自己攒“经验手册”的工具。
过去,机器人训练主要靠“刷题”——给它看大量数据,调整神经网络参数。但ASPIRE换了个思路:让机器人像人类工程师一样,试错、复盘、写总结,把经验存起来,下次直接用。
和普通人有什么关系?
如果你觉得现在的机器人有时候笨笨的——比如抓东西老是掉、走路撞墙——那这套方法可能让它们越来越靠谱。未来你家里的扫地机器人、工厂里的机械臂,都能从每次失败中学到东西,不会再犯同样的错误。
ASPIRE 是怎么工作的?
整个流程分三步:
1. 记录“病历”
当机器人执行任务(比如拿一个收音机)失败时,ASPIRE 不会只说“没成功”,而是把每一步都拆开看:是没识别错物体?还是规划路径撞到障碍了?还是抓取动作没对准?它会把感知、规划、抓取等所有环节的输入、输出、错误日志都录下来,就像医生记病历一样详细。
2. 分析并修好问题
系统会调用大模型(比如GPT或Claude)来“审查”这些记录,判断问题出在哪,然后自动修改机器人的控制程序。改完后,再让机器人试一次,直到任务跑通。
3. 把经验存进“技能库”
修好之后,这次修复经验(比如“如果规划路径撞到障碍,就尝试从45度、90度、180度方向重新靠近目标”)会被提炼成一条 Skill,存入一个不断扩大的技能库。以后遇到类似场景,无论目标是收音机还是微波炉,机器人直接调用这条经验,不用再重新试错。
训练的结果不再是“权重”,而是“经验手册”
传统机器人训练结束后,我们会得到一个模型文件(一堆数字权重)。但ASPIRE训练出来的,是一个技能库——就像程序员写的踩坑笔记,记录着各种问题的解法。训练过程也不再是对神经网络做“梯度下降”,而变成了“技能打磨”(Skill Refinement)。
英伟达机器人主管 Jim Fan 说,这套方法代表了一种全新的学习方式:
- 训练:从调参数 → 变成打磨技能;
- 模型:从一堆权重 → 变成一个持续扩展的技能库;
- 并行训练:多个机器人各自练不同的技能,然后把经验汇总到同一个技能库。
效果怎么样?
论文在三个机器人测试基准上做了验证,结果比传统方法提升明显。
- 在“双臂交接物体”任务中,成功率从 20% 提升到了 92%;
- 在从未见过的新任务上,技能库越丰富,机器人的成功率也越高,从几乎不会做一路涨到 31%。
也就是说,技能库越厚,机器人就越不像个新手。