促进强化学习落地产业界:网易推出强化编程框架
实验结果显示:蓝色线条为端到端的模型,效果最差;红色为网络加规则的混合模型一开始上升很快,且始终优于蓝色;绿色线条为分层模型,最初低于红色,但在后续训练过程中逐渐变成收益最高的一条曲线。验证了复杂问题中引入人工经验进行混合编程与问题分解进行分层网络训练的优势。 实验结果对比 在过去的一年多时间里,伏羲实验室已经利用该框架将深度强化学习应用于游戏产业。目前已在网易的多款自研产品中取得成果并上线,涵盖MMORPG、篮球、动作及休闲等众多品类。 下面是强化编程框架在潮人篮球这款游戏中的应用实例。以多网络的方式实现了篮球游戏内的AI设计,通过流程图实现attack、defense、ball clear、free ball四个网络的建模,编辑对应的神经网络,调用RL插件接口,,在Web前端申请计算资源进行训练。
视频1 流程图工具建模实例 可以看到4个网络的训练随着机器人的状态进行切换
视频2 网络训练实例 最终,在潮人篮球线上3V3模式中,3个AI Bot胜率达82%,2个AI与1个玩家人机合作胜率达70%。
视频3 潮人篮球3v3强化学习AI Bot 网易伏羲实验室 (编辑:衢州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |