强化学习也有基础模型了！DeepMind重磅发布AdA，堪比人类的新环境适应能力 _智能体

文章插图

文章插图

新智元报道
编辑：LRS
【新智元导读】强化学习也要进入预训练时代了！
基础模型（foundation models）在监督和自监督学习问题上展现出强大的领域适应性（adaption）和可扩展性（scalability），但强化学习领域仍然没有基础模型。
最近DeepMind的Adaptive Agents团队提出了一种人-时间尺度（human-timescale）自适应智能体AdA（Adaptive Agent），证明经过大规模训练后的RL智能体也能具有通用上下文的学习能力，该算法可以像人一样快速适应开放式的具身3D问题。

文章插图

论文链接：https://arxiv.org/abs/2301.07608
在一个巨大的动态空间环境中，自适应智能体展现出即时的假设驱动的探索，能够有效地利用获得的知识，而且可以接受第一人称演示作为提示（prompt）。
研究人员认为其适应性主要来源于三个因素：
1. 在一个巨大的、平滑的和多样化的任务分布中进行元强化学习；
2. 一个参数化的、基于注意力的大规模记忆结构的策略；
3. 一个有效的自动curriculum，在代理能力的前沿对任务进行优先排序。
实验部分展示了与网络规模、记忆长度和训练任务分布的丰富程度有关的特征性扩展规律；研究人员认为该结果为日益普遍和适应性强的RL智能体奠定了基?。悄芴逶诳帕煊蚧肪橙匀槐硐至己?。
RL基础模型
人类往往能够在几分钟内适应一个新的环境，这是体现人类智能的一个关键特性，同时也是通往通用人工智能道路上的一个重要节点。
不管是何种层次的有界理性（bounded retionality），都存在一个任务空间，在这个空间中，智能体无法以zero-shot的方式泛化其策略；但如果智能体能够非常快速地从反馈中学习，那么就可能取得性能提升。
为了在现实世界中以及在与人类的互动中发挥作用，人工智能体应该能够在「几次互动」中进行快速且灵活的适应，并且应该在可用数据量提升时继续适应。
具体来说，研究人员希望训练出的智能体在测试时，只需要在一个未见过的环境中给定几个episode的数据，就能完成一个需要试错探索的任务，并能随后将其解决方案完善为最佳的行为。
元强化学习（Meta-RL）已经被证明对快速的语境适应是有效的，然而，不过元RL在奖励稀疏、任务空间巨大且多样化的环境中作用有限。
这项工作为训练RL基础模型铺平了道路；也就是说，一个已经在庞大的任务分布上进行了预训练的智能体，在测试时，它能以few-shot的方式适应广泛的下游任务。
自适应智能体（AdA）能够在具有稀疏奖励的巨大开放式任务空间中进行人类时间尺度适应，不需要任何提示、微调或访问离线数据集。
相反，AdA表现出假设驱动的探索行为，利用即时获得的信息来完善其策略，能够有效地获取知识，在第一人称像素观察的部分可观察的三维环境中，在几分钟内适应奖励稀疏的任务。