据外媒报道,近日,谷歌大脑展示了如何让机器人没有目标地“玩”也可以变得更聪明。谷歌通过模拟远程操纵机器人获得了一个数据集“Learning from Play data(LfP)”。在远程操作中,研究人员让机器人用机械手和机械臂与现实世界交互,但是没有具体的目标。
谷歌将这个数据集用于系统内,该系统试图对这些有趣的动作序列进行分类,并将它们映射到一个潜在的空间。同时,系统中的另一个模块试图查看潜在空间并提出可以将机器人从其当前状态转换到其目标状态的动作序列。
谷歌将使用这个数据集的方法与使用行为克隆技术等方法做比较,结果发现使用LfP数据集的机器人表现更稳定,且在大部分任务中成功率都较高。有趣的是,研究人员还发现,使用LfP数据集训练的机器人在首次失败后会多次重新尝试完成任务,且在从未接受过任务标签训练的情况下,机器人的潜在规划空间会学会嵌入任务语义。