DeepMind最新论文：强化学习“足以”达到通用人工智能( 五 )

在论文中，研究人员提供了几个例子，展示了强化学习代理如何能够在游戏和机器人环境中学习一般技能。例如，当被要求在围棋比赛中取得最大胜利时， AlphaZero 学会了跨越围棋许多方面的综合智能。

然而，研究人员强调，一些根本性的挑战仍未解决，他们并没有对强化学习代理的样本效率提供任何理论上的保证。而是猜想，当强大的强化学习代理被置于复杂的环境中时，将在实践中产生复杂的智能表达。如果这个猜想是正确的，它将为实现人工通用智能提供了一条完整的途径。
强化学习以需要大量数据而闻名，强化学习代理可能需要几个世纪的游戏时间才能掌握计算机游戏。研究人员仍然没有想出如何创建强化学习系统来将他们的学习推广到多个领域。因此，环境的微小变化通常需要对模型进行全面的重新训练。

研究人员还承认，奖励最大化的学习机制是一个未解决的问题，仍然是强化学习中有待进一步研究的核心问题。论文抛出了整个强化学习领域研究的一个核心问题，即如何在一个实用的代理中有效地学习奖励最大化。

“奖励最大化” 的优缺点
加州大学圣地亚哥分校的神经科学家、哲学家和名誉教授帕特里夏?丘奇兰（Patricia Churchland）将该论文中的想法描述为 “非常仔细和有见地的解决方案” 。

然而， Churchland 也指出了该论文关于社会决策的讨论中可能存在的缺陷。 Churchland 最近写了一本关于道德直觉的生物学起源的书，他认为依恋和联系是哺乳动物和鸟类社会决策的一个强大因素，这就是为什么动物为了保护他们的孩子而将自己置于极大的危险之中。

Churchland 说：“我倾向于将亲密关系以及其他人的关怀视为自己，也就是 “我和我” 的范围的延伸。在这种情况下，我认为，对论文假设进行小幅修改以实现对 “我和我” 的奖励最大化会非常有效。当然，我们群居动物都有依恋程度，对后代超强依恋、对配偶和亲属非常强依恋，对朋友和熟人很强依恋等等，依恋类型的强度会因环境和发育阶段而异。 ”

Churchland 表示，这不是一个主要的批评，并且很可能会非常优雅地融入这个假设。 Churchland 说：“我对论文的详细程度以及他们考虑可能存在的弱点的仔细程度印象深刻。我可能也不对，但我倾向于认为这是一个里程碑。 ”

针对 “哪一个通用目标可以产生所有形式的智能” 这一问题。研究人员在讨论部分提到，在不同的环境中实现不同的奖励最大化可能会导致不同的、强大的智能形式，每一种智能都会表现出自己令人印象深刻的、但又无法比拟的一系列能力。一个好的奖励最大化的代理将利用其环境中存在的任何元素，但某种形式的智能的出现并不以它们的具体内容为前提。