让AI做个人吧!探究游戏AI的拟人性问题( 六 )
文章图片
GAIL是一种基于生成式对抗网络的方法 , 与各种使用生成式对抗网络的方法相似 , 它也会构建一个生成器G和一个判别器D , 并让二者不断进行博弈并交替进行更新 。 在GAIL中 , 判别器D是一个二分类器 , 通常是一个深度神经网络 , 它的输入是状态-动作对
文章图片
, 输出则是一个(0,1)区间内的概率值 , 代表输入的状态-动作对由人类生成的概率 。 和一般的二分类任务相似的 , 每轮训练中我们可以可以简单的通过最小化交叉熵损失函数
文章图片
对D进行更新 。
GAIL中的生成器G则是智能体的行为策略
文章图片
, 训练中
文章图片
需要与环境不断交互生成轨迹
文章图片
, 它会使用强化学习方法进行更新 , 使用判别器的输出
文章图片
作为强化学习任务中的奖励函数 。 这就意味着 , 被判别器
文章图片
认为更像人类的行为会得到更多的奖赏 , 因此随着训练的推进
文章图片
会逐渐向人类行为策略
文章图片
逼近 。 二者经过多轮迭代最终收敛后 , 判别器
文章图片
无法区分出真实轨迹
文章图片
与生成器生成的轨迹
文章图片
, 此时我们的生成器
文章图片
就是一个能够有效模仿人类行为策略的AI策略 。
当然 , 作为一种基于生成对抗式网络的方法 , GAIL也有与GAN相似的缺点:实际应用时需要大量经验性的trick , 某些情景下很难训练到理想的收敛结果 。 但由于GAIL能给模型带来的更强的泛化性 , 以及更少的示例数据需求仍然使它成为了一个优秀的模仿学习方法 。
Avatar平台中的模仿学习
Avatar是腾讯互动娱乐事业群-游戏AI研究中心团队自研的分布式在线强化学习训练框架 , 已经在如竞速、格斗、FPS、Moba等多个品类的游戏上进行探索和实践 , 部分游戏AI已经上线 。 本章我们重点讨论在真实游戏业务场景中训练强化学习模型的过程中 , 在Avatar训练框架下对模仿学习做的探索 。
真实业务需求
以我们在工作中的真实业务场景为例 , 当游戏业务与接入Avatar强化学习训练框架时 , 除通过AvatarServiceAPI将游戏客户端与训练框架交互接口对齐之外 , 都不可避免的需要实现下列内容 。
文章图片
特征工程:将游戏原始数据转换为形如MDP(state/action)格式的数据 , 并设计状态和动作的数据内容奖赏设计:针对当前对局状态和模型预测的动作给出正负反馈 。 网络设计:根据MDP设计对应的神经网络结构经历过的同学一定能够体会到被调参支配的恐惧 , 而这三项每个都是调参地狱 。 例如[8]详解了奖赏设计(rewardshaping) , 文章有多长 , 说明rewardshaping这一过程有多困难 。 调参工作每一次微小调整都需要数十小时甚至数十日的验证 , 而指东打西的结果太容易使人崩溃 。
相关经验推荐
- 近日|王者荣耀:瑶妹、干将莫邪、关羽3个英雄如何让对手迷惘
- BLG即将迎来自己在LPL春季赛的第二场比赛|blg官博再次沦陷,铁粉质疑不让uzi上场,doggo哭了
- 本文转自:新快报“一个游戏到底是如何被做出来|当独立游戏被陈设在艺术馆中
- 策划:我设计了个武将。|策划:我设计了个武将。网友:好家伙,真让人摸不着头脑
- S26赛季更新后出现了不少BUG|腾讯游戏信用分上线正式服,三分钟一刷的龙让打野优势更大
- 做了20年的传说系列,和一款手游联动了?有玩家写出千字攻略点赞
- 让街机老板谈之色变的BUG,人物自带必杀光环,一直前进就能通关
- 欧成不忘老对手:LCK的新生代AD让我想起乌兹,像是能改变ADC位置
- BLG杀疯了:让一追二击败OMG,收获两连胜!网友:队安,勿念!
- 峡谷晚报:Lele澄清骂Uzi是谣言|阿狸小重做上线测试服