论文精讲 | 量子计算论文精讲专题第四期：强化学习在量子控制上的应用与实现

2023/07/12

实践

论文精讲 | 量子计算论文精讲专题第四期：强化学习在量子控制上的应用与实现

分享人：崔子栋 ｜学校**：电子科技大学**

内容简介

强化学习在量子控制方面有许多应用，例如量子最优控制、动力学退耦合、量子态制备。但是想要充分的发挥强化学习的作用，目前有两个主要的阻碍。第一个是通过tomography来获得最后的态演化结果作为强化学习的样本，这往往需要大量的资源耗费。第二个是如何设计一个合适的reward function来全面的衡量整个演化过程，从而使强化学习的Agent能够学习到完善的决策方法。本次介绍了两篇文章，其中一篇给出了一种单次测量作为强化学习样本的态制备方法，并证明这种方法也能够很好的实现态制备。第二篇文章则给出了一种全面考虑强化学习在实现量子控制中的各个方面损失的奖励函数设计方法

相关论文1

**标题：**Experimental Deep Reinforcement Learning for Error-Robust Gate-Set Design on a Superconducting Quantum Computer **作者：**Yuval Baum, Mirko Amico, Sean Howell, Michael Hush, Maggie Liuzzi, Pranav Mundada, Thomas Merkh, Andre R.R. Carvalho, and Michael J. Biercuk **期刊：**PRX Quantum（2021年11月4日）

相关论文2

**标题：**Model-Free Quantum Control with Reinforcement Learning **作者：**V. V. Sivak, A. Eickbusch, H. Liu, B. Royer, I. Tsioutsios, and M. H. Devoret **期刊：**Physical Review X（2022年3月28日）

相关论文3

**标题：**Universal quantum control through deep reinforcement learning

**作者：**Murphy Yuezhen Niu, Sergio Boixo, Vadim N. Smelyanskiy and Hartmut Neven

**期刊：**npj Quantum Information（2019年4月23日）

强化学习简介

1. 一个完整的强化学习算法主要由Agent，Environment，State，Action，Reward组成。Agent执行了某个动作之后，Environment根据动作转换到新的一个State，并根据一定的规则给出一个Reward。之后，Agent根据得到的新State与Reward更新自己的决策过程并给出一个新的Action，如此循环往复，直到完成整个控制过程。

2. 强化学习能够使用的前提是环境以及基于环境的整个决策过程要满足马尔可夫决策过程。

Experimental Deep Reinforcement Learning for Error-Robust Gate-Set Design on a Superconducting Quantum Computer

简介：该文章给出了强化学习在量子控制上的一个典型的过程，描述了通过强化学习来进行量子门实现的实验过程。该文章通过tomography来获得每次演化完成之后的量子态，再通过fidelity以及线路深度作为reward来对agent进行优化。同时，控制过程将整个门时间T划分为N个小时间段，每个时间段内由一个不含时的控制哈密顿来进行演化。

（来源：相关论文1）

该文章选择了但比特门Rx(π/2)门和两比特门ZX(−π/2)作为实验对象。

对于Rx(π/2)，该文章选择了24qubit的Clifford randomized benchmarking 来衡量。即，用Rx(π/2)门和虚拟的Z旋转来实现24比特的Clifford群中的门，最后通过该门的保真度来估计每个但比特门的保真度。

该门的保真度随着构成Clifford群中的门所需基本门长度增加的结果如下：

（来源：相关论文1）

对于两比特门则通过两种方式来衡量其保真度以及鲁棒性。一是直接将ZX门直接或组成SWAP门反复使用，然后测量它的保真度变化；二是同样通过把Clifford randmized benchmarking来衡量多个基本门组合后的平均保真度。结果如下：

（来源：相关论文1）

在ZX门的实验中，重复使用的实验总共持续了25天，在这25天中，在没有经过其他校准的情况下将ZX门的保真度保证在了99.3%之上。

但是需要注意的是，这样强化学习过程非常耗时。由于强化学习是串行一步步实现完整控制的过程，并且控制中的每一步之后的state都要进行保存作为sample来帮助下一步决策的给出。所以在实验过程中，每一步Agent给出action后，演化之后都要做tomography。而每一次tomography在该文章中都需要1024次测量。同时，为了供给模型足够的训练数据，这样完整的一次过程进行多次重复。所以总的来说会比较耗费时间。

Model-Free Quantum Control with Reinforcement Learning

**简介：**该文章提出了一种基于强化学习的量子态制备方法。该文章基于测量反馈的酉演化系统平台。该文章的创新点在于量子环境对于Agent的反馈不依赖于复杂的tomography之后的fidelity估计，而是将一次简单测量作为一个Reward。这样的Reward在实验上会更加的可行，本文通过几个典型的态来演示将单次测量作为样本来让强化学习进行优化的方法是可行的。

整个实验设计包括由经典神经网络构成的Agent，由一系列含参量子门作用在harmonic oscillator以及附属的ancilla qubit上的Environment构成。在这个Environment中最具有创新点的部分就是图中的蓝色部分的Reward线路。因为有Reward线路的存在，使得由粉色线路生成的最终态不需要tomography就可以转化为Reward。

（来源：相关论文2）

在具体线路设计部分，该文章使用了相位门SNAP(ϕ)和位移门D(α)为基本门来构造参数化量子线路,其形式为：

当然也可以改为任何可以实现态制备的参数化量子线路形式。对于Fock态的态制备实验

（来源：相关论文2）

其中Reward线路中第一个测量m1是{|g>。最后一个测量则是|g>被作用πpulse之后的态形成的一组测量基，用于给出reward。

上述Fock态的制备与Nelder-Mead和 simulated anneling方法进行了对比，得到了比较好的结果。

任意态制备

上实现如下形式的两比特门最优控制：

其整个模型示意图如下图所示：

（来源：相关论文3）

对于门N(2.2,2.2,π/2)进行了数值模拟实验，最后门保真度随控制噪声强度变化结果如下：

（来源：相关论文3）

总结这三篇文章从实验上实现，如何快速sample以及最后如何设计考虑全面的reward三个反面全面描述了强化学习再量子控制上的实现方式。对于态制备问题，我们可以设计对应的reward circuit来将复杂的tomography转化为简单的投影测量，依然能够得到很好的表现。对于最优控制，给出了一种全面考虑保真度、耗散以、门时间长度以及控制合理性的reward函数。通过这三篇文章可以较为全面的完成对强化学习进行量子控制关键技术点的设计。

欢迎专家学者在公众号投稿分享优秀论文和创新成果，投稿录取者可获得精美礼品一份，投稿联系HiQ量子计算小助手：LLT66TT（备注“量子计算专题投稿”）

热身赛答题倒计时3天，初赛作品提交倒计时11天，请大家抓紧时间提交作品！

学习

核心框架

大模型套件

科学计算套件

领域套件

工具

模型库

生态资源

技术学习

专区

社区组织

贡献与成长

开发者活动

互动交流

活动

动态

论文精讲 | 量子计算论文精讲专题第四期：强化学习在量子控制上的应用与实现

论文精讲 | 量子计算论文精讲专题第四期：强化学习在量子控制上的应用与实现