代码
加入昇思MindSpore强化学习SIG,共同构建强化学习算法开放平台

加入昇思MindSpore强化学习SIG,共同构建强化学习算法开放平台

加入昇思MindSpore强化学习SIG,共同构建强化学习算法开放平台

强化学习(RL)是一种基于对期望行为和不期望行为分别进行奖励和惩罚的机器学习方法。强化学习智能体能够感知和解释其环境、采取行动并通过反复试验进行学习。在 AlphaGo 获得成功之后,强化学习受到了更加广泛的关注,并已经在许多领域中开展了应用。

目前使用传统AI框架进行RL算法的模拟和应用,往往需要人为重复开发一些基础框架的代码。MindSpore Reinforcement在支持可扩展的分布式多智能体异构硬件训练的同时,提供了更为直观的算法编程抽象。欢迎用户积极参与MindSpore强化学习社区并提供您的反馈,社区的反馈对于MindSpore Reinforcement 未来的发展具有建设性的重要意义。

1

强化学习 SIG****使命

01、目标

强化学习 SIG将关注强化学习的计算框架开发、研究进展以及在实际场景中的各类应用,特别是专注于优化基于MindSpore的高性能可扩展的强化学习分布式计算框架,提供持续丰富的经典算法库,供强化学习的研究人员更加方便地开展感兴趣的研究工作。小组的重点工作包括以下几个方面:

1)加速MindSpore Reinforcement在实际场景中的应用以及框架的持续演进。

2)分享强化学习在算法、分布式训练以及性能优化等方面的相关研究进展。

3)组织基于MindSpore Reinforcement构建的算法以及分布式训练相关的研讨会。

4)促进MindSpore Reinforcement的用户、开发人员和研究人员之间的交流。

5)构建用于对比强化学习算法的开放平台。

02、倡议

为了解决现有强化学习框架的局限性,欢迎在以下方面提出建议和贡献:

1)编程框架:编程框架包括actor、learner等算法API,也包括replay buffer,policy等核心组件。

2)算法样例:代码仓包含了算法库,已实现了一些常见强化学习算法,后续会逐步增加更多的算法。

3)模拟环境:常见的环境有gym、mujoco等。多样化的模拟环境和更高的采样效率有助于强化学习的研究和应用。

4)训练性能:训练性能受到许多因素影响,包括算子性能,进程间通信优化等。欢迎任何性能改进的建议。

**03、**框架架构

强化学习算法开发和多智能体分布式训练

MindSpore Reinforcement为编写强化学习算法提供了干净整洁的API抽象,它将算法与部署和执行解耦,包括硬件加速器的使用、并行度和跨进程计算的分布。MindSpore Reinforcement将强化学习的算法转换为一系列编译后的计算图,然后由MindSpore框架在Ascend、GPU或者CPU上高效运行。

2

强化学习 SIG****工作计划

前期

分享强化学习算法、多智能体强化学习、可扩展分布式训练以及性能优化等相关的研究进展,讨论学术研究以及产业应用遇到的挑战,为MindSpore Reinforcement演进提供参考。

中期

通过合作开发等模式,在社区开展合作研究,推动更多场景落地。

后期

在全球范围内开展强化学习合作研究。

3

强化学习 SIG****构成

小组领衔成员

**李荣鹏,**浙江大学信息与电子工程学院副教授,主要从事人工智能在通信等领域的应用基础研究,目前的研究兴趣包括内生智能网络(如基于业务认知的智能网络服务方法、网络切片等5G/B5G/6G移动通信网络关键技术)、群体智能等,即NICE(Networked Intelligence for Communications Evolving)。

曾获得吴文俊人工智能优秀青年奖(2021),是《China Communications》等期刊编委。

技术指导

**Peter Pietzuch,**英国帝国理工计算机学院教授(哈佛博士后,剑桥博士),负责计算机学院研究工作的主任,LSDS(Large-Scale Data System)研究所主任。

小组成员

01、Huanzhou Zhu, 伦敦帝国理工学院计算机系博士后研究员

02、Bo Zhao, 伦敦帝国理工学院计算机系博士后研究员

03、**cristoval,**华为昇思MindSpore工程师

04、**wilfchen,**华为昇思MindSpore工程师

05、**VectorSL,**华为昇思MindSpore工程师

06、**chenyijie6,**华为昇思MindSpore工程师

07、**Selina,**昇思MindSpore布道师

4

强化学习 SIG召唤你

扫码加入强化学习 SIG交流群

sig仓:

https://gitee.com/mindspore/community/pulls/337

代码仓:

https://gitee.com/mindspore/reinforcement

昇思MindSpore开源社区算力使能,快来SIG申请你的专属算力

昇思MindSpore为推动SIG发展和开发者活跃,发布社区专属算力使能计划,面向SIG发放海量算力,免费领取。助力开发者了解和掌握全场景AI技术,支撑开发者实践和项目开发,助力开发者全面发展。

关于MindSpore SIG

昇思MindSpore社区欢迎业界专家、学术伙伴在社区成立特别兴趣小组(SIG),作为社区领域技术代言人,打造领域技术品牌,共建昇思MindSpore开源生态。

MindSpore SIG即MindSpore Special Interest Groups,即“昇思特别兴趣小组”,MindSpore社区成立个技术SIG的初衷是为该领域的专家、教授和学生提供一个开放交流的平台,通过会议分享、项目开发等活动促进技术交流、合作共赢,并使得SIG成员的影响力和技术能力得到提升,截止目前,MindSpore SIG共计成立20+。

如果你也想成立一个SIG

扫码添加小助手了解更多

【MindSpore SIG一览】