5001拉斯维加斯-如何让人模仿猎豹走路?Stuart Russell提出基于最优传输的跨域模仿学习
Stuart Russell等人利用Gromov-Wasserstein间隔来对于齐及比力智能体差别空间之间的状况,从而令人模拟猎豹走路成为可能。编译 | 杏花编纂 | 青暮
跨域模拟进修研究的是怎样使用一个智能体的专家演示来练习一个具备差别实行方式或者形态的模拟智能体。比力专家智能体及模拟智能体之间的轨迹及平稳漫衍是具备挑战性的,由于它们糊口于差别的体系中,甚至可能不具备不异的维数。
近日,来自加州年夜学伯克利分校人工智能试验室、伦敦年夜学学院及 Facebook AI 的研究职员于一篇论文 Cross-Domain Imitiation Learning via Optimal Transport 中提出了 Gromov-Wasserstein 模拟进修(GWIL),这是一种跨域模拟的要领,利用 Gromov-Wasserstein 间隔来对于齐及比力智能体差别空间之间的状况。

强化进修(RL)已经经于很多范畴取患了使人冷艳的结果。然而,当前RL的有用性与练习奖励的质量紧密亲密相干。可是,对于在很多实际世界的使命来讲,设计密集且信息富厚的奖励需要年夜量的工程事情。为了减轻这类事情量,模拟进修(IL)建议直接从专家演示中进修。
可是,当前年夜大都的 IL 要领仅可以运用在最简朴的设置,于这类设置中,专家及智能体同享不异的实行及转换动态,它们糊口于不异的状况及动作空间。特别是这些要领需要来自智能体域的专家演示。
是以,论文的研究职员从头思量了 IL 的效用,由于它好像只是将问题从设计信息性奖励迁徙到提供专家演示,而不是解决问题。然而,假如放宽当前 IL 要领的约束设置,那末真正减轻工程量的天然模拟场景就会呈现。事实上,不需要不异的动力学就能使智能体模拟差别形态的人类及呆板人,从而广泛扩展 IL 的合用性,并减轻对于域内专家演示的需求。
这类专家演示来自另外一个域的宽松设置已经成为更具实际假定意义的新兴范畴,被称为跨域模拟进修。这些事情的一个配合计谋是进修专家域及智能体域之间的映照。为此,它们需要拜候智能体使命,于这些使命中,专家及智能体都于各自的域中阐扬最优作用。于必然的布局假定下,该映照可以或许于连结最优性的条件下,将专家域内的轨迹转化为智能体域内的轨迹。虽然这些要领确凿放宽了 IL 的典型设置,但对于代办署理使命的要求严峻限定了跨域 IL 的合用性。例如,它解除了模拟之前从未见过的专家以和转移到新呆板人的可能性。
本篇论文中,研究职员放宽了跨域 IL 的假定,提出了一个不需要拜候智能体使命的基准及要领。为此,研究职员离开了先前事情的不雅点,将跨域 IL 情势化为最优传输问题,提出了一种Gromov-Wasserstein模拟进修要领(GWIL),该要领利用 Gromov-Wasserstein 间隔来求解基准。研究者们论文里正式描写了 GWIL 连结最优性的场景,展现了其可能性及局限性。试验注解,于非普通持续节制设置中,GWIL经由过程一个单一的演示从另外一个域进修最优举动,而不需要任何智能体使命。
2相干事情模拟进修。IL 的初期研究要领是举动克隆,这相称在经由过程监视进修练习分类器或者回归器来复制专家的演示。另外一种要害要领是逆强化进修,它旨于进修一个奖励函数,于该奖励函数下不雅察到的演示是最优的,然后可以经由过程 RL 来练习智能体。
为了跳过进修专家奖励函数,Ho Ermon 证实了 RL 是占费用量匹配问题的对于偶,并提出了一个匹敌性方针,该方针的优化类似恢复专家的状况-动作占费用量,以和利用天生式匹敌收集的实用算法。虽然近来的一些事情旨于改良该算法相对于在由极年夜极小优化引起的练习不不变性,Primal Wasserstein模拟进修(PWIL)及 Sinkhorn 模拟进修(SIL)将 IL视为占用办法之间的最优传输问题,以彻底消弭极年夜极小方针,并于样本效率方面优在匹敌性要领。
还有有其他研究职员将模拟进修扩大到繁杂的类人运动及非噜苏设置中的游戏举动。从 Wasserstein 到 Gromov-Wasserstein,该论文事情是对于 Dadashi 等人以和 Papagiannis 及 Li 的延长,从而逾越了专家及模拟者于统一域中的限定,并进入了糊口于差别空间中的智能体之间的跨域设置。
跨域及形态的迁徙进修。于 RL 中,差别域之间通报常识的事情凡是会进修状况空间及动作空间之间的映照。A妹妹ar 等人利用无监视流形对于齐,于具备相似局部几何外形但假设可以得到手工建造特性的状况之间找到线性映照。近来于跨视点迁徙进修及实行例不匹配方面的事情进修了不需要手工特征的状况映照,但假定可以从两个范畴得到成对于及时间对于齐的演示。
此外,Kim 等人及 Raychaudhuri 等人提出了从未配对于及未对于齐使命中进修状况映照的要领。所有这些要领都需要智能体使命,即来自两个域的一组专家演示,这限定了这些要领于实际世界中的合用性。Stadie等人提出将匹敌进修及域混合联合起来,于不需要智能体使命的环境下于智能体域进修计谋,但他们的要领仅合用在小看点不匹配的环境。Zakka等人采用方针驱动的不雅点,试图模仿使命进程,而不是匹配细粒度的布局细节,以便于物理呆板人之间转换。
比拟之下,这篇论文的要领不依靠在进修智能体之间的显式跨域潜于空间,也不依靠在智能体使命。GromovWasserstein 间隔使研究职员可以或许于没有同享空间的环境下直接比力差别的空间。现有基准测试使命假定可以拜候来自两个智能体的一组演示,而这篇论文中的试验仅假定可以拜候专家演示。

图注:等距计谋于平稳漫衍的状况-动作空间内具备不异的成对于间隔。于欧几里患上空间中,等距变换保留了这些成对于间隔并包括扭转、平移及反射。

图注:Gromov-Wasserstein 间隔使咱们可以或许比力具备差别动态及状况-动作空间的两个智能体的平稳的状况-动作漫衍。咱们将其用作跨域模拟进修的伪奖励。

图注:给定专家域(a)中的单个专家轨迹,GWIL 于没有任何外部奖励的环境下恢复智能体域(b)中的最优计谋。绿点暗示初始状况位置,当智能体到达红色方块暗示的方针时,事务竣事。
3试验成果论文的研究职员提出了一个由 3 个使命构成的跨域 IL 要领的基准集,旨于回覆如下问题:
1. 当智能体域是专家域的刚性变换时,GWIL可否恢复最优举动?这是可以的,论文的作者们用迷宫证实了这一点。
2. 当智能体的状况及步履空间与专家差别时,GWIL可否恢复最优举动?这也是可以的,本篇论文中,作者们展示了倒立摆(cartpole)及钟摆(pendulum)之间稍微差别的状况-动作空间以和步行者(walker)及猎豹(cheetah)之间显著差别的空间。
为了回覆这两个问题,研究职员利用了于 Mujoco 及 DeepMind 节制套件中实现的模仿持续节制使命。该进修计谋的视频可于论文的项目网站上拜候。于所有设置中,作者于dE及dA的专家及智能体空间中利用欧几里患上器量。
进修计谋地址:https://arnaudfickinger.github.io/gwil/

图注:给定钟摆域(上图)中的单个专家轨迹,GWIL 于没有任何外部奖励的环境下恢复智能体域(倒立摆,下图)中的最优举动。


雷峰网(公家号:雷峰网)
雷峰网版权文章,未经授权禁止转载。详情见转载须知。





