“熟能生巧”这句话通常是用来形容人类的,但对于刚进入陌生环境的机器人来说,这也是一句很棒的格言。
想象一下,一个机器人来到一个仓库。它具备了它所接受的训练技能,比如放置物体,现在它需要从它不熟悉的货架上挑选物品。起初,机器很难做到这一点,因为它需要熟悉新的环境。为了改进,机器人需要了解它需要改进总体任务中的哪些技能,然后专门化(或参数化)该动作。
现场人员可以对机器人进行编程以优化其性能,但麻省理工学院计算机科学与人工智能实验室 (CSAIL) 和人工智能研究所的研究人员开发了一种更有效的替代方案。上个月在机器人:科学与系统会议上,他们展示了“估计、推断和定位”(EES) 算法,该算法使这些机器能够自行练习,有可能帮助它们提高在工厂、家庭和医院中执行有用任务的能力。
评估情况
为了帮助机器人更好地完成诸如扫地之类的活动,EES 采用了视觉系统来定位和跟踪机器的周围环境。然后,该算法会估计机器人执行某个动作(如扫地)的可靠性以及是否值得进行更多练习。EES 会预测如果机器人改进了某项特定技能,机器人完成整个任务的能力会有多好,最后进行练习。随后,视觉系统会在每次尝试后检查该技能是否正确完成。
EES 可以在医院、工厂、家庭或咖啡店等场所派上用场。例如,如果你想让机器人打扫你的客厅,它需要练习扫地等技能。不过,根据 Nishanth Kumar SM ’24 及其同事的说法,EES 可以在没有人工干预的情况下帮助机器人提高水平,只需进行几次练习即可。
“在开始这个项目之前,我们想知道这种专业化是否能够在真实机器人上通过合理数量的样本实现,”Kumar 说道,他是这项研究的论文的共同主要作者,也是电气工程和计算机科学的博士生,也是 CSAIL 的附属机构。“现在,我们有了一种算法,可以让机器人在合理的时间内利用数十或数百个数据点显著提高特定技能,这是标准强化学习算法所需的数千或数百万个样本的升级版。”
参见点扫描
在人工智能研究所的研究试验中,EES 在波士顿动力公司的 Spot 四足机器人上实施时,其高效学习的能力得到了充分体现。该机器人背部装有一只手臂,经过几个小时的练习后,它完成了操作任务。在一次演示中,机器人在大约三个小时内学会了如何将球和环安全地放在倾斜的桌子上。在另一次演示中,该算法引导机器在大约两小时内将玩具扫入垃圾箱。这两项结果似乎都是对以前框架的升级,以前的框架每项任务可能需要 10 多个小时。
“我们的目标是让机器人收集自己的经验,这样它就可以更好地选择哪些策略在部署中效果良好,”共同主要作者 Tom Silver SM ’20、PhD ’24 说,他是电气工程和计算机科学 (EECS) 校友和 CSAIL 成员,现在是普林斯顿大学的助理教授。 “通过关注机器人所知道的内容,我们试图回答一个关键问题:在机器人拥有的技能库中,哪一个技能是最有用的,值得现在练习?”
EES 最终可以帮助简化机器人在新部署环境中的自主实践,但目前它有一些局限性。首先,他们使用的桌子离地面较低,这让机器人更容易看到物体。Kumar 和 Silver 还 3D 打印了一个可连接的手柄,让 Spot 更容易抓住刷子。机器人没有检测到一些物品,并且将物体识别在了错误的位置,因此研究人员将这些错误算作失败。
给机器人布置家庭作业
研究人员指出,借助模拟器,物理实验的练习速度可以进一步加快。机器人最终可以将真实和虚拟练习结合起来,而不是在物理上自主练习每项技能。他们希望使系统运行速度更快、延迟更少,设计 EES 以克服研究人员遇到的成像延迟。未来,他们可能会研究一种算法,该算法可以推理一系列练习尝试,而不是计划要改进哪些技能。
佐治亚理工学院交互计算学院助理教授、NVIDIA AI 研究科学家 Danfei Xu 表示:“让机器人自主学习既非常有用,又极具挑战性。”他没有参与这项工作。“未来,家用机器人将出售给各种家庭,并有望执行各种任务。我们不可能事先对它们需要知道的一切进行编程,因此让它们在工作中学习至关重要。然而,让机器人在没有指导的情况下自由探索和学习可能会非常缓慢,并可能导致意想不到的后果。 Silver 及其同事的研究引入了一种算法,使机器人能够以结构化的方式自主练习技能。这是朝着制造能够不断自我进化和改进的家用机器人迈出的一大步。”
Silver 和 Kumar 的合著者是人工智能研究所的研究人员 Stephen Proulx 和 Jennifer Barry,以及四名 CSAIL 成员:东北大学博士生和客座研究员 Linfeng Zhao、麻省理工学院电子工程与计算机科学博士生 Willie McClinton 以及麻省理工学院电子工程与计算机科学教授 Leslie Pack Kaelbling 和 Tomás Lozano-Pérez。他们的工作得到了人工智能研究所、美国国家科学基金会、美国空军科学研究办公室、美国海军研究办公室、美国陆军研究办公室和麻省理工学院情报探索计划的部分支持,并得到了麻省理工学院超级云和林肯实验室超级计算中心的高性能计算资源。