[翻译]用能量函数学习概念(Learning Concepts with Energy Functions)

翻译自:https://openai.com/blog/learning-concepts-with-energy-functions/

我们开发了一个基于能量的模型,可以快速学习识别和生成概念的实例,例如近、上、间、最近和最远,用二维点集表示。我们的模型只经过五次演示就学会了这些概念。我们还展示了跨域转移:我们使用在二维粒子环境中学习的概念来解决基于三维物理的机器人的任务。

人类智能的许多特征,如从有限的经验中归纳、抽象推理和计划、类比推理、创造性问题解决和语言能力,都需要将经验整合为概念的能力,这些概念是理解和推理的基本组成部分。我们的技术使代理能够从任务中学习和提取概念,然后使用这些概念来解决不同领域中的其他任务。例如,我们的模型可以使用在二维粒子环境中学习的概念,让它在基于三维物理的机器人环境中执行相同的任务,而无需在新环境中进行再培训。

一个模拟机器人通过一个基于能量的模型训练,使用在另一个二维域中学习的概念,将手臂导航到两点之间。

这项工作使用能量函数让我们的代理学习分类和生成简单的概念,他们可以使用这些概念来解决诸如在不同环境中的两点之间导航之类的任务。概念的例子包括视觉(“红色”或“正方形”)、空间(“内部”、“顶部”)、时间(“缓慢”、“之后”)、社交(“积极”、“有益”)等等。这些概念一旦学会,就成为agent理解和推理的基本构件,如DeepMind和Reparious的其他研究所示。

example@2x
能量函数可以让我们建立一个系统,它可以产生(左)也可以识别(右)基本概念,比如正方形的概念。

能量函数通过编码对世界状态的偏好来工作,这使得具有不同可用动作(改变转矩与直接改变位置)的智能体学习一种在不同环境下工作的策略这大致转化为对简单事物的概念性理解的发展。

工作原理

为了创建能量函数,我们在数学上把概念表示为能量模型。能量模型的思想植根于物理学,直觉认为观察到的事件和状态代表着低能配置。

我们为每个概念定义了一个能量函数E(x,a,w):

  • 模型观察到的世界状态(x)
  • 对处于该状态的实体的注意力遮罩(a)。
  • 作为一个连续的向量(w),它被定义为连续的能量

世界的状态是由一组实体及其属性和位置组成的(就像下面的点,它们既有位置属性又有彩色属性)。用于“识别”的注意力掩码代表了模型对一些实体集的关注。能量模型输出一个单一的正数,指示概念是否满足(当能量为零时)或不满足(当能量较高时)。当注意力掩码集中在一组表示概念的实体上时,概念就满足了,这要求实体处于正确的位置(修改x或生成)和关注正确的实体(修改A或标识)。

我们将能量函数构造为一个基于关系网络结构的神经网络,它允许它以任意数量的实体作为输入。这个能量函数的参数是我们的训练过程正在优化的;其他函数是从能量函数隐式推导出来的。

这种方法允许我们使用能量函数来学习一个可以同时执行生成识别的单一网络。这使我们能够交叉使用从一代人学到的概念,反之亦然。(注:这种效应已经通过镜像神经元在动物身上观察到了。)

单网络训练

我们的训练数据是由(注意力遮罩,状态)轨迹组成的,我们提前生成这些轨迹,用于我们希望模型学习的特定概念。我们训练我们的模型,给它一个给定概念集的一组演示(通常是5个),然后给它一个新的环境(X0),并要求它预测下一个状态(X1)和下一个注意掩码(a)。我们对能量函数进行了优化,使得训练数据中的下一个状态和下一个注意掩模被赋予低能量值。与像变分自动编码器这样的生成模型类似,该模型被激励来学习有用地压缩任务各个方面的值。我们使用各种概念训练我们的模型,包括视觉、空间、近端和时间关系,以及二维粒子环境中的量化。

主要成果

我们在一系列任务中评估了我们的方法,这些任务旨在了解我们的单个系统在识别和生成由同一概念统一起来的事物方面有多好;我们的系统可以学习分类和生成特定的空间关系集,或者能够以特定的方式在场景中导航实体,或者可以对数量(一、二、三或三个以上)或接近度等概念做出良好的判断。

数量概念:实证关注一个、两个、三个或三个以上的实体。推理被用来产生相似数量的注意力遮罩

当模型能够在学习生成概念(通过在状态向量x内移动实体)和识别它们(通过改变固定状态向量上的注意力掩码)之间共享经验,模型的性能会更好:当我们评估在这两种操作中训练的模型时,它们在每种操作上的表现都比只训练的模型好就这一次行动。我们还发现了转移学习的迹象一个能量函数只在一个识别环境下训练,在生成上表现良好,即使没有经过明确的训练。

邻近概念:演示事件将注意力集中到距离标记最近或最远的实体,或使标记与特定颜色的实体(左)最接近或最远。推理用于为最近或更远的实体(识别)生成注意掩码,或将标记放置在离实体最近或最远的位置(生成)(右)

下一步

在未来,我们很高兴探索在更丰富的三维环境中学习到的更广泛的概念,将概念与我们的Agent的决策政策相结合(到目前为止,我们只把概念看作是从被动经验中学习的东西),并探索概念和语言理解之间的联系。

发表评论

邮箱地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据