资讯

通往通用人工智能的路上，我们少不了无监督学习

2019-05-07 18:09:43

在过去十年中，机器学习在很多领域都取得了前所未有的进展，如图像识别，自动驾驶汽车、和玩复杂游戏如「GO」等。这些成就在很大程度上都是通过采用监督学习和强化学习两种范式中的一种来训练深度神经网络得以实现的。这两种范式都要求人为设定「训练信号」并将其传递给计算机。在监督学习的示例中，这些信号被视为「目标」（例如某个图像的正确标签）；在强化学习中，它们是行为正确时获取的「奖励」（例如在 Atari 游戏中获得高分）。因此，机器学习的界限是由人类训练者所定义的。

虽然一些科学家认为，拥有足够包容的训练体制，如使智能体具备完成各类任务的能力，就应该足以达到通用的智能水平，但其他人则认为真正的智能需要更多的独立学习策略。例如，回归到人类幼童如何学习的场景，她的祖母可能会坐在她身旁，耐心地举出什么是「鸭子」的例子（该行为像是监督学习中的指示信号），或者在她完成木版拼图时用掌声表示奖励（如同在强化学习中一样）。但是，幼儿在绝大多数时间里都是在天真地探索世界，通过好奇心、游戏和观察的方式来理解她周围的环境。无监督学习是一种旨在通过奖励智能体（即计算机程序）来创建自主智能以便在不考虑特定任务的情况下学习其观察到的数据的范式。换句话说，智能体是为了学习而学习。

无监督学习的一个关键动机是，虽然传递给学习算法的数据拥有很丰富的内部结构（如图像、视频和文本），但用于训练的目标和奖励通常都非常稀疏（例如，标签「狗」指的是尤其多变的物种，标签「0」或「1」表示游戏中的「失败」或「成功」）。这表明算法学到的大部分内容必须包括对数据本身的理解，而不是将这种理解应用于特定任务。

解码视觉元素

2012 年是深度学习的里程碑年，这一年，AlexNet （以其首席架构师 Alex Krizhnevsky 命名）席卷ImageNet 分类竞赛，其识别图像的能力被认为是前所未有的，而更令人瞩目的则是它的内部结构。当研究人员分析 AlexNet 时，发现它通过构建图像输入更复杂的内部表示来解释图像。在底层表示如纹理和边缘之类的低层特征，然后将它们组合在一起形成高级概念，如轮子和狗。

这与我们的大脑处理信息的方式非常相似，在初级感官处理区域的简单边缘和纹理被聚合成复杂对象，如更高区域中的面部。因此，复杂场景的表示可以由视觉基元构建，这种方式大致类似于构成句子的单个词所带来的意义。即使没有明确的指导，AlexNet 的层级也已经发现了一个基本的视觉「词汇」来解决其任务。从某种意义上说，它已经学会了玩 Wittgenstein 所谓的「语言游戏」，该游戏会反复地将像素转换为标签。

通往通用人工智能的路上，我们少不了无监督学习

卷积神经网络的视觉词汇。在网络的每一层都会生成最大程度地激活特定神经元的图像。然后，这些神经元对其他图像的响应可以被解释为视觉上看不见的「单词」，如纹理、书架、狗鼻子、鸟等。（图源：特征可视化，Olah et al，2017）。

迁移学习

从通用智能的角度来看，关于 AlexNet 词汇的最有趣的事情，就是它可以被重复使用或迁移到正在训练以外的视觉任务中，例如识别整个场景而不是单个对象。在不断变化的世界中，迁移是必不可少的，并且也是人类所擅长的，我们能够将从已有经验（世界认知模型）中得到的技能和理解迅速地顺手应用到任何场景中。例如，一位古典乐钢琴家可以相对轻松地演奏爵士钢琴。理论上，塑造了对于世界正确的内部表征的人工智能体，应该能够做类似的事情。

尽管如此，AlexNet 等分类器所学到的表示仍具有局限性。特别是，由于该网络只训练成单一类别（如猫、狗、汽车、火山）的标注图像，因此标注推理中任何不需要的信息都易于被忽略，无论这些信息对其他任务有多重要。例如，如果标签推导的总是前景，那表示可能就无法捕获图像的背景特征。一种可行的解决方案是提供更全面的训练信号，如将描述图像的标题更详细化：不仅仅在标题中提到「狗」，而要完整地写出「柯基犬在阳光明媚的公园中追赶飞盘」。然而，这些目标很难获取，特别是在规模上，可能不足以捕获完成任务所需的所有信息。无监督学习的基本前提是，学习内容丰富、广泛可迁移性的表示的最佳途径就是尝试学习能被学到数据的所有信息。

如果通过表示学习的迁移概念看起来过于抽象，那么可以试想一个学过将人画成火柴人的小孩。她发现了一种高度紧凑和具有快速适应性的人类形态的表示。她可以通过为每个火柴人增加具体细节，为她所有的同学绘制肖像画：例如为她最好的朋友画一幅眼镜，给她同桌「穿」上他最喜欢的红色 T 恤。而且她学习这项技能不是为了完成一项特定任务或获得奖励，而是对反映了她周围世界的基本需求的回应。

从创造中学习：生成式模型

也许无监督学习的简单的目标是训练算法以生成其本身的数据实例。所谓的生成式模型不应该简单地再现他们正在上面训练的数据，这是一种无趣的记忆行为。生成式模型的目的是建立一个基础类，并能够从中抽取数据的模型：不是特定的马或彩虹的照片，而是马和彩虹的所有照片集；不是来自特定发言者的特定表达，而是说话表达方式的通用性分布。生成式模型的指导原则是，能够构建一个令人信服的数据例子就是智能体已经理解了该数据的最有力证据：正如 Richard Feynman 所说，「对于我所无法理解的东西，我就无法创造出来。」

对于图像，迄今为止最成功的生成式模型要数生成式对抗网络（简称 GAN），它包含两个网络，即一个生成网络和一个判别网络，二者在 GAN 中的作用就如同参与一场类似于艺术品伪造和甄别的识别竞赛。生成网络产生图像的目的是诱使鉴别者相信它们是真实的；与此同时，判别网络则会因发现赝品而获得奖励。所生成的图像，先是杂乱和随机的，随后在许多次迭代中被细化，并且在网络之间的持续动态会让图像变得更加逼真——在许多情况下，这些图像甚至与真实照片无法区分。生成对抗性网络还可以由用户大致用草图勾勒出其定义的场景细节。

扫一眼下面的这些图像，它们足以让我们相信，网络已经学会了如何表示其训练的图片的许多关键特征，如动物身体的结构、草的纹理以及光影的细节效果（即使是通过肥皂泡折射的）。但仔细观察下面这些图，就不免能发现些许小异常，如白狗明显多了条腿，喷泉其中一个喷嘴的水流呈奇怪的直角状。虽然生成式模型的开发者在努力避免这种不完美，但这些可见的不完美也突显了重建熟悉的数据（如图像）的一个好处，即研究人员可以通过检查样本，推断出模型学到了什么以及没有学到什么。

通往通用人工智能的路上，我们少不了无监督学习

BigGAN 描绘的场景和生物（Brock, Donahue and Simonyan, 2018）

从预测中创造

无监督学习中另一个著名的成员是自回归模型，该模型其中的数据被分成一连串小部分，然后对每个小部分依次进行预测。这类模型可以通过连续预测接下来会发生什么，从而来生成数据，并将上轮预测结果作为新的输入继续进行预测。语言模型可能就是最好的例子，语言模型中每个单词都是它上一个的单词的预测结果，这些模型可用于在某些电子邮件和消息应用程序中弹出的文本预测。语言建模的最新进展是能够生成看似合理的段落，例如下图所示的 OpenAI 的 GPT-2 生成的段落。

通往通用人工智能的路上，我们少不了无监督学习

文本中一个有趣的谬误就是独角兽被描述为有四个角：再次证明了对于网络理解局限性的探讨是非常有趣的。

通过控制用于决定输出预测的输入序列，自回归模型也可以用来将一个序列转换为另一个序列。这个 demo 使用了一个假定的自回归模型将文本转换为逼真的手写。WaveNet 可以将文本转换为自然语音，并且现在也应用于为 Google 智能助理生成语音。条件和自回归生成的类似处理过程也可用于语种间的翻译。

自回归模型通过尝试以特定顺序预测数据来学习数据。通过一部分数据来预测其他数据的方法可以用来构建一种更泛化的无监督学习的算法类。例如，这可以看做是从句子中删除一个单词，并尝试用剩余的内容来预测这个被删掉的单词。通过学习来进行大量的局部预测，模型逐渐能够从整体上学习数据。

关于生成式模型的一个担忧，就是它们有可能被滥用。人类虽然早就能够通过照片，视频和音频编辑操纵证据，但借助生成式模型可以更容易地恶意编辑媒体数据。我们可以看到所谓的「deepfakes」的例子，比如对奥巴马总统的伪造视频片段。鼓舞人心的是，针对这些挑战，业界已经开展了几项主要的应对工作，其中包括使用统计技术来帮助检测合成媒体和验证真实媒体、提高公众意识以及围绕限制训练好的生成式模型的可用性的讨论。此外，生成式模型本身可用于检测合成媒体和异常数据，如模型可用于检测虚假语音或识别支付异常以保护客户免受欺诈。而研究人员则需要研究生成式模型，以便更好地理解它们并降低其应用风险。

重新想象的智力

生成式模型本身就很吸引人，但 DeepMind 对于它们主要感兴趣的是，该模型能够在通往通用智能的道路上起到「垫脚石」的作用。赋予智能体生成数据的能力就是一种赋予其想象力的方式，从而使其具备规划和推理未来的能力。我们的研究表明，即使没有明确的数据支持，学习预测环境的方方面面也可以丰富智能体的世界模型，从而提高其解决问题的能力。

这些结果与我们对人类思维的认知非常一致。我们所拥有的在没有明确监督的情况下了解世界的能力，是我们所认为的智力的基础。在乘坐火车时，我们可能会无精打采地凝视着窗户，将手指划过座位的天鹅绒，看着坐在我们对面的乘客。我们没有带着任何任务去做这些事，然而几乎都在情不自禁地收集信息，并且我们的大脑也在无意识地不断地解我们周围的世界，以及我们所处的位置。

来源 | 雷锋网
作者 | WBLUE