小米科技|加州大学研发机器狗，十分钟“学会”自我行走小米12s ultra|空间站

文章图片

文章图片

【小米科技|加州大学研发机器狗，十分钟“学会”自我行走】
这只机器狗像一只着急的甲虫一样，在空中摆动着双腿。经过10分钟的挣扎，它成功地翻了过来。半小时后，这只机器狗像刚出生的牛犊一样笨拙地迈出了第一步。但一小时后，它就自信满满地在实验室里昂首阔步。

（来源：《麻省理工科技评论》）
这个四条腿的机器人的特别之处在于，它自发地学会了这一切，而不需要计算机仿真程序告诉它该怎么做。
加州大学伯克利分校的丹尼亚尔·哈夫纳（DanijarHafner）和他的同事们使用了一种叫做强化学习的人工智能技术，这种技术通过奖励各种算法的有利行为来进行学习，以训练机器人在现实世界中从一无所知到能够行走。该团队使用了同样的算法，成功地训练了其他三个机器人，比如其中一个机器人能够捡起球并将这个球从一个托盘移动到另一个。
就传统方法而言，机器人在现实世界中尝试做任何事情之前都要在计算机模拟仿真中进行训练。例如，一对名为Cassie的机器腿，在计算机模拟中通过强化学习进行训练之后，才在现实中学会了走路。
问题是，你的计算机模拟程序永远不会准确得跟现实世界一样。你总是会错估这个世界的某些方面， ”哈夫纳说，他与同事亚历山卓·埃斯康特雷拉（AlejandroEscontrela）和菲利普·吴（PhilippWu）一起参与了这个项目，现在成了DeepMind公司的实习生。
他说，将模拟器中的经验教训应用到现实世界中也需要额外的工程实践。该团队的算法被称为“梦想者” ，它利用过去的经验建立了一个周围环境的模型。
“梦想者”还允许机器人通过预测其潜在行为的未来可能结果，在计算机程序而非现实环境下反复进行试错法计算。
这使得机器人能够比在纯粹在现实环境中学习的速度更快。一旦机器人学会了行走，它就会不断学习适应意料之外的情况，比如抵抗被棍子推倒。
纽约大学计算机科学助理教授勒雷尔·平托（LerrelPinto）说：“通过试错法训练机器人是一个难题，因为这种训练需要漫长的时间，而这也使得训练本身变得更加困难。 ”
他说， “梦想者”算法表明，深度强化学习和环境模型能够在很短的时间内教授机器人新技能。
俄勒冈州立大学的机器人学教授乔纳森·赫斯特（JonathanHurst）说，这些尚未经过同行评审的研究结果清楚表明， “强化学习将成为未来机器人控制领域的基石。 ”
从机器人的训练阶段中取消仿真模拟器有很多额外好处。哈夫纳说，该算法可以用于教机器人如何在现实世界中学习技能和适应硬件故障等情况——例如，机器人可以在一条腿上的电机出现故障的情况下学习行走。
爱丁堡大学人工智能学科的助理教授斯蒂凡诺·阿尔布雷希特（StefanoAlbrecht）说，这种方法还可能在更复杂的事情上有巨大应用潜力，比如需要复杂且昂贵模拟器的自动驾驶领域。
阿尔布雷希特说，新一代的强化学习算法可能“在现实世界中快速理解环境是如何运行的” 。
但平托说，还有一些尚未解决的大问题。
在强化学习里，工程师需要在他们的代码中指定训练对象的哪些行为是好的，并以此给予奖励，也要界定哪些行为是不受欢迎的。在机器狗的例子里，翻身和走路很好，而不走路则不好。

小米科技|加州大学研发机器狗，十分钟“学会”自我行走

相关经验推荐

多边形的对角线与边数的关系多边形的对角线与边数的关系是函数关系吗

11月23日南京秦淮新增1例核酸检测异常人员活动轨迹

要养成健康的饮食和睡眠习惯能提高睡眠质量的食物

非人哉|《斗罗大陆》海神三考，辅助魂技失效，小舞被绑沉银柱溺水

原神怎么获得番茄，原神番茄在哪里收集

胃酸过多想吐怎么缓解如何才能缓解胃酸带来的痛苦呢

怎么防止孩子玩游戏怎么防止孩子玩游戏打人

蜂蜜四五年了还能吃吗

摩尔庄园游戏金矿石怎样获取（摩尔庄园游戏金矿石获取方法）

湖北有哪些城市有地铁湖北有哪些城市

厦门失业生育保险怎么报销厦门失业生育补助金在哪里领取

高通骁龙|华为Mate 50正在测试：搭载4G版骁龙898，明年上半年发布

怎么去除茶垢

呆萌的名字情侣名字设计

女生节幽默祝福话语女生节幽默祝福

小超梦排位撞车圣枪哥，拿手掘墓教做人？峡谷第一实至名归！

dnf手游剑豪带火套怎么样

低血压的危害有哪些

高考前突然什么都不会怎么办如何调整

合肌怎么形成的