OpenAI怎么用自我对局训练AI机器人变身摔角王？_业内动态_资讯

OpenAI怎么用自我对局训练AI机器人变身摔角王？

2017-10-24来源：压铸网

核心摘要： OpenAI 于近日的一项研究中发现，在一个非明确的技能训练的环境中，AI 能够通过“自我对局”的训练掌握一系列动作技能

OpenAI 于近日的一项研究中发现，在一个非明确的技能训练的环境中，AI 能够通过“自我对局”的训练掌握一系列动作技能，比如进攻、躲避、假动作、踢、抓等等。“自我对局”训练确定了环境对于提升AI系统的重要性。Dota2在“自我对局”训练中的表现和结果让团队越来越相信，“自我对局”训练不久将会成为AI系统的核心。对本文进行编译，全文如下：

我们在几个3D机器人之间设置了一些基本的游戏竞赛，利用一些简单的目标（比如：将对手推到场地圈外；到达场地的另一边，并阻止对手到达；把球踢进对手的网内，而不让对手的球踢进自己的网内等。）对每个机器人进行训练，并且分析机器人在完成目标时所使用的技能和策略。

一开始，机器人会因为站立、前进这样的行为而获得丰厚的奖励，但最后这些奖励会被清零，只有胜利的机器人才会获得奖励。除了这些简单的奖励以外，机器人还会学到一系列动作技能，比如进攻、躲避、假动作、踢、抓等等。在这个过程中，每个机器人的神经网络都单独接受了“近端策略优化” 的训练。

为了弄清楚在这些目标和竞赛的压力面前，机器人会作出如何复杂的行动，我们不妨分析一下机器人的“摔角相扑”比赛吧。在这个比赛中，为了训练机器人行走，我们在比赛前期给机器人设置了丰厚的奖励；增加了从这个圆形场地中心起的负L2距离，并且将其设置为机器人获得的丰厚奖励。机器人一开始的时候可以使用这些奖励在比赛场地内作出一些动作和反应，但是我们会在训练中把奖励悄悄地清零。这样一来，在接下来的训练迭代中，机器人才会为了得到更多的奖励，自觉地对自己的动作和技能进行优化。

设计出有助于这些技能训练的任务和环境并非不可能，但这不仅需要研究员耗费大量的精力，还需要他们具备独到的创意。此外，机器人的行为也可能会因为人类设计师在设计中出现的问题而变得更复杂。通过成千上万次的迭代优化，我们能够开发出更好的机器人，进而可以创造出功能强大的AI系统，该系统能够自我引导，并完成性能自我优化。在Dota2项目中我们也能发现类似的自我优化现象。在Dota2项目中，“自我对局”训练让我们成功创造出了一个能够在电子竞技的solo版本中击败顶级人类玩家的强化学习机器人。

迁移学习

这些机器人还能进行“迁移学习”，它们能够把在一场景学习到的技能运用于另一个从未接触过的场景。在一个案例中，我们给那些经过了“摔角相扑”训练的机器人设置了一个任务，让它们在强风中始终保持站立。结果是，那些无视这个强风环境的机器人能够始终保持直立，而接受过传统强化学习训练的机器人在尝试行走时则会立刻摔倒。

过拟合

我们的机器人会与“co-learning策略”发生过拟合，该策略是针对某些特定的对手而设计的，但是在面对新的对手时，这个策略就会失效。针对这一问题，我们的解决方案是——让机器人与多个不同的对手进行“较量”。这些对手来自于一系列的策略，其中有同步训练或早期训练的策略。面对这些各式各样、风格不一的对手，机器人就必须学习更多通用的策略和技术，这样才能“来者不惧”。

(责任编辑：中国压铸网 )

免责声明

•: 本文仅代表作者个人观点，本站未对其内容进行核实，请读者仅做参考，如若文中涉及有违公德、触犯法律的内容，一经发现，立即删除，作者需自行承担相应责任。涉及到版权或其他问题，请及时联系我们 114@qq.com

• 鸿特科技1.65亿元成功竞得南通鸿泰重整投资人资	• 年产5000吨高端铝合金型材及汽车精密零部件项目
• 玉柴越南汽车发动机工厂建成投产，全球化战略再	• 广东佛山富成精密10亿打造压铸总部，聚焦新能源
• 瑞立科密获飞行汽车客户核心零部件定点开拓低	• 文山州文山市年产100万套新能源汽车铝合金零部
• 雪龙集团拟投1亿设子公司拓展铝镁压铸业务	• 永茂泰投资4亿元建设镁铝合金汽车和机器人零部
• 立中集团与伟景智能签署7500万元人形机器人定点	• 科森科技拟9.15亿元出售医疗子公司100%股权聚
• 华翔广东顺德工厂“人形机器人零部件”首条产线	• 东莞比亚迪，年产值突破百亿！
• 《2025压铸企业名录》电子版全新升级！	• 科达携手安徽久航打造高端锻造铝（镁）合金汽车
• 齐齐哈尔重型铸造高端数控机床专用铸件项目落成	• 辽宁乾承科技2亿智能化精密铸造项目，购置3D打
• 总投资达8亿元！上汽大众峰梅汽车动力系统产业	• 鑫源集团全球智创总部落户西部（重庆）科学城
• 拓普集团拟发行H股并在港交所上市，推进国际化	• 总投资6亿！胜捷电机新能源汽车零部件项目落地

特色频道

扩展专区

用户专区

OpenAI怎么用自我对局训练AI机器人变身摔角王？

鸿特科技1.65亿元成功竞得南通鸿泰重整投资人资格

去年中国购买的工业机器人占全球订单总量的三分之一