[{"data":1,"prerenderedAt":460},["ShallowReactive",2],{"content-query-FRDBaGMOPm":3},{"_path":4,"_dir":5,"_draft":6,"_partial":6,"_locale":7,"title":8,"description":9,"date":10,"cover":11,"type":12,"body":13,"_type":454,"_id":455,"_source":456,"_file":457,"_stem":458,"_extension":459},"/technology-blogs/zh/2966","zh",false,"","MindSpore AI科学计算系列 | 化学深度学习模型ChemGPT的性能评估公式拟合","作者：于璠 来源：知乎","2024-01-26","https://obs-mindspore-file.obs.cn-north-4.myhuaweicloud.com/file/2024/02/02/7dddd57fdb24450795fd892e42def72e.png","technology-blogs",{"type":14,"children":15,"toc":446},"root",[16,24,43,51,56,61,66,71,76,84,89,99,104,112,117,124,129,134,149,154,162,167,182,187,197,202,210,220,225,232,237,246,251,258,263,271,276,283,288,293,300,305,315,320,325,334,347,358,369,380,391,396,404,415,426,436],{"type":17,"tag":18,"props":19,"children":21},"element","h1",{"id":20},"mindspore-ai科学计算系列-化学深度学习模型chemgpt的性能评估公式拟合",[22],{"type":23,"value":8},"text",{"type":17,"tag":25,"props":26,"children":27},"p",{},[28,30,36,38],{"type":23,"value":29},"**作者：**",{"type":17,"tag":31,"props":32,"children":33},"strong",{},[34],{"type":23,"value":35},"于璠",{"type":23,"value":37}," ",{"type":17,"tag":31,"props":39,"children":40},{},[41],{"type":23,"value":42},"来源：知乎",{"type":17,"tag":25,"props":44,"children":45},{},[46],{"type":17,"tag":31,"props":47,"children":48},{},[49],{"type":23,"value":50},"背景",{"type":17,"tag":25,"props":52,"children":53},{},[54],{"type":23,"value":55},"深度学习在计算机视觉和自然语言处理（NLP）等领域的“有效性”依赖于深度神经网络利用不断增长的计算量、数据和模型容量的能力。大多数SOTA的NLP、CV大模型都是基于一个小集合内的大型预训练模型改编而成的，通过自监督预训练可以很成功地从大型数据集中合成信息，执行各种下游任务时几乎没有甚至根本没有微调。因此，大规模的模型和数据集扩展可能将是深度学习在科学领域取得巨大成功的先决条件。",{"type":17,"tag":25,"props":57,"children":58},{},[59],{"type":23,"value":60},"AlphaFold、Open Catalyst Project和ChemBERTa等最近的工作表明，更大的数据集和模型、预训练和自监督学习，这些计算机视觉和NLP中的关键要素，都为深度学习在化学领域的应用解锁了新的可能性。",{"type":17,"tag":25,"props":62,"children":63},{},[64],{"type":23,"value":65},"然而，与计算机视觉和NLP不同的是，规模化化学深度学习网络的途径和收益尚不明确：一方面，化学深度学习可以结合领域先验知识，这可能可以缓解紧迫的资源需求；另一方面，由于化学空间和分子机器学习任务的异质性和复杂性，想要训练出在各种下游任务上均表现良好的、通用且鲁棒的模型会是一个不小的挑战。然而，化学空间的巨大性和下游任务的异质性使得化学领域的大模型非常适合无标签的多模态数据集。与此同时，最近的研究发现，neural scaling law在多个数量级的模型大小、数据集大小以及计算量上都改善了模型性能的表征。但这些实验都需要大量的计算资源，并且依赖于特定领域的模型训练程序，这些程序又并不适用于传统深度学习应用领域之外的领域。并且，大模型的开发部署成本高昂，neural scaling行为规律的研究也依赖于昂贵的超参数优化及实验。",{"type":17,"tag":25,"props":67,"children":68},{},[69],{"type":23,"value":70},"借鉴CV和NLP领域利用加速神经架构搜索和超参数传递的技术，如TSE、μTransfer，可以加速深度学习大模型开发的思路，MIT的学者Nathan C. Frey及其团队提出，要研究化学深度学习模型的在不同规模下的能力，需要找到可行并且规范的方法来加速超参数转移和表征神经尺度。",{"type":17,"tag":25,"props":72,"children":73},{},[74],{"type":23,"value":75},"他们开发了深度学习化学大模型的scaling策略，通过在多个数量级上改变模型和数据集大小来研究大型化学模型中的scaling行为。介绍了具有超过10亿个参数的chemGPT模型，在多达1000万个数据点的数据集上进行预训练，并研究了用于生成式化学建模的大语言模型LLM和用于学习原子间势的图神经网络。此外，该研究团队还探索了物理先验和尺度之间的相互作用，并发现了化学中语言模型的经验scaling关系，最终得到，在实验范围内的最大数据集上，scaling指数β为0.17，对于等变图神经网络原子间势，scaling指数β为0.26。",{"type":17,"tag":25,"props":77,"children":78},{},[79],{"type":17,"tag":80,"props":81,"children":83},"img",{"alt":7,"src":82},"https://obs-mindspore-file.obs.cn-north-4.myhuaweicloud.com/file/2024/02/02/6e29f54faf044e66a8422a01f8033ce9.png",[],{"type":17,"tag":25,"props":85,"children":86},{},[87],{"type":23,"value":88},"图1. 深度学习化学模型的scaling关系探究",{"type":17,"tag":25,"props":90,"children":91},{},[92,94],{"type":23,"value":93},"**1、**",{"type":17,"tag":31,"props":95,"children":96},{},[97],{"type":23,"value":98},"方法",{"type":17,"tag":25,"props":100,"children":101},{},[102],{"type":23,"value":103},"对于PEC介质，表面等效电流满足电场积分方程（EFIE）和磁场积分方程（MFIE）：",{"type":17,"tag":25,"props":105,"children":106},{},[107],{"type":17,"tag":31,"props":108,"children":109},{},[110],{"type":23,"value":111},"1.1 Neural scaling法则",{"type":17,"tag":25,"props":113,"children":114},{},[115],{"type":23,"value":116},"对具有足够模型参数和/或数据收敛的LLM和CV模型而言，其性能随模型参数量、数据集大小及计算量的经验scaling关系可以由式1给出。",{"type":17,"tag":25,"props":118,"children":119},{},[120],{"type":17,"tag":80,"props":121,"children":123},{"alt":7,"src":122},"https://obs-mindspore-file.obs.cn-north-4.myhuaweicloud.com/file/2024/02/02/0d8095f5961a4ba3aaed276f33eab48e.png",[],{"type":17,"tag":25,"props":125,"children":126},{},[127],{"type":23,"value":128},"式1",{"type":17,"tag":25,"props":130,"children":131},{},[132],{"type":23,"value":133},"其中α为scaling系数，R指资源信息量，包括模型参数量，数据集大小以及计算量，β为scaling指数，表征此幂律的斜率，指示模型相对R的scaling效率。对于固定的数据预算，缩放指数量化了由于模型大小增加而带来的损失改善。β值越大，对应的斜率越陡，随着数据/模型大小的增加，性能越好。需要注意的是，此经验公式不适用于分辨率受限的情况，即数据集足够大但数据集不够大，反之亦然。从神经尺度关系中识别这些分辨率受限的区域，可以让我们大致理解模型损失改善是受限于数据可用性还是受限于模型容量。",{"type":17,"tag":25,"props":135,"children":136},{},[137,142,144],{"type":17,"tag":31,"props":138,"children":139},{},[140],{"type":23,"value":141},"1",{"type":23,"value":143},".",{"type":17,"tag":31,"props":145,"children":146},{},[147],{"type":23,"value":148},"2 化学大语言模型",{"type":17,"tag":25,"props":150,"children":151},{},[152],{"type":23,"value":153},"化学图谱天然地可以用字符串简单表示，因此时序模型是处理化学数据的天然选择。观察到基于transformer的模型预训练损失可以通过数据集或者模型体量的增加而得到明显的改善，该团队为化学设计了一个名为ChemGPT的生成式大语言模型，以研究数据集和模型大小对预训练损失的影响。ChemGPT是一个基于GPT-Neo的GPT3风格的模型，带有用于描述分子的自引用嵌入字符串SELFIES的tokenizer。对于化学语言建模，一组分子（x1、x2、...、xn）被表示为每个分子的符号序列（s1、s2、...、sn），给定一个序列，p(x)的概率可以因式分解为各个分子的条件概率的乘积。ChemGPT使用具有自注意力机制的transformer架构来计算条件概率，估计p(x)并从中采样以生成新的分子。该团队的ChemGPT具有多达10亿非嵌入参数，在包含了多达1000万个分子的PubChem数据库上进行预训练，相比于传统的生成式化学模型，其规模大大提升了。",{"type":17,"tag":25,"props":155,"children":156},{},[157],{"type":17,"tag":31,"props":158,"children":159},{},[160],{"type":23,"value":161},"1.3 GNN力场",{"type":17,"tag":25,"props":163,"children":164},{},[165],{"type":23,"value":166},"对于大多数化学领域的下游任务，分子构型和三维结构信息是必要的。该工作使用GNN接入分子中原子的坐标信息，并预测给定分子形貌的能量，微分获得能量守恒的原子力场。",{"type":17,"tag":25,"props":168,"children":169},{},[170],{"type":17,"tag":31,"props":171,"children":172},{},[173,175,180],{"type":23,"value":174},"1.",{"type":17,"tag":31,"props":176,"children":177},{},[178],{"type":23,"value":179},"4",{"type":23,"value":181}," Training Performance Estimation（TPE）",{"type":17,"tag":25,"props":183,"children":184},{},[185],{"type":23,"value":186},"由于模型超参数（包括学习率和batch大小）对于实现最优损失至关重要，但在不同领域和模型/数据集大小之间不可转移，因此我们需要有效的策略来在深度化学模型中实现可扩展的超参数优化（HPO）。为了在计算资源限制下实现深度化学模型的高效scaling，我们引入了TPE，这是TSE的一个延伸，它降低了HPO的计算成本，发现哪些超参数在新领域应用中最重要，以及要研究哪些超参数，通过在训练过程中自动提前停止来加速HPO。用来加速化学语言模型和GNN原子间势的模型选择。",{"type":17,"tag":25,"props":188,"children":189},{},[190,192],{"type":23,"value":191},"**2、**",{"type":17,"tag":31,"props":193,"children":194},{},[195],{"type":23,"value":196},"结果",{"type":17,"tag":25,"props":198,"children":199},{},[200],{"type":23,"value":201},"物理信息监督残差学习被提出作为电磁建模的通用深度学习框架 [2]。它应用深度神经网络（DNNs）来通过残差学习矩阵方程中未知量的更新函数，用于迭代地修改未知量，直到收敛。在残差学习的框架下，第k步迭代的更新方程如下：",{"type":17,"tag":25,"props":203,"children":204},{},[205],{"type":17,"tag":31,"props":206,"children":207},{},[208],{"type":23,"value":209},"2.1 加速超参数优化",{"type":17,"tag":211,"props":212,"children":214},"h3",{"id":213},"_1tpe加速chemgpt的超参数优化",[215],{"type":17,"tag":31,"props":216,"children":217},{},[218],{"type":23,"value":219},"（1）TPE加速ChemGPT的超参数优化",{"type":17,"tag":25,"props":221,"children":222},{},[223],{"type":23,"value":224},"图2展示了在MOSES数据集的200万个分子上训练的ChemGPT模型的训练性能估计（TPE）结果。MOSES比PubChem更小，并且是训练化学生成模型的代表数据集。这里使用MOSES来演示如何使用TPE快速发现化学LLM（如ChemGPT）的最佳设置。图2中用20%的数据验证TPE的可用性，显示了50个epoch后的真实损失与仅10个epoch后使用TPE的预测损失，线性回归的R^2=0.98。此过程在新的数据集上比较容易被重现，并且可以加速HPO。",{"type":17,"tag":25,"props":226,"children":227},{},[228],{"type":17,"tag":80,"props":229,"children":231},{"alt":7,"src":230},"https://obs-mindspore-file.obs.cn-north-4.myhuaweicloud.com/file/2024/02/02/cf236a32d3a6485ebffe71f7a0c03651.png",[],{"type":17,"tag":25,"props":233,"children":234},{},[235],{"type":23,"value":236},"图2. 使用TPE在训练早期识别最佳模型，并停止非最优模型的训练，以节省80%+的总计算消耗",{"type":17,"tag":211,"props":238,"children":240},{"id":239},"_2tpe加速gnn超参数优化",[241],{"type":17,"tag":31,"props":242,"children":243},{},[244],{"type":23,"value":245},"（2）TPE加速GNN超参数优化",{"type":17,"tag":25,"props":247,"children":248},{},[249],{"type":23,"value":250},"TPE对于GNN的表现同样出色。重复上述过程，使用总训练预算的20%，改变学习率和批量大小，用于SchNet、PaiNN和SpookyNet，在数据集MD17上训练。SchNet和PaiNN的TPE实现了出色的预测能力（图3）。发现TPE的效果与使用全部训练预算的模型损失方差息息相关，这也表明了合适的HPO的重要性。",{"type":17,"tag":25,"props":252,"children":253},{},[254],{"type":17,"tag":80,"props":255,"children":257},{"alt":7,"src":256},"https://obs-mindspore-file.obs.cn-north-4.myhuaweicloud.com/file/2024/02/02/7d1ae2c692cd407d9479fceb0afbfc68.png",[],{"type":17,"tag":25,"props":259,"children":260},{},[261],{"type":23,"value":262},"图3. TPE对于GNN的表现同样出色",{"type":17,"tag":25,"props":264,"children":265},{},[266],{"type":17,"tag":31,"props":267,"children":268},{},[269],{"type":23,"value":270},"2. Neural Scaling公式的拟合",{"type":17,"tag":25,"props":272,"children":273},{},[274],{"type":23,"value":275},"在neural scaling的介绍中提到的“分辨率受限”的情况，即模型和数据集规模不适配。从scaling关系中识别这些分辨率受限的区域，可以让我们大致理解模型损失改善是受限于数据可用性还是受限于模型容量。对于固定的数据预算，scaling指数量化了由于模型大小增加而带来的损失改善。根据数据集的大小，不同范围的模型大小可以看到类似幂律的缩放行为。Scaling公式拟合在图像上可表示为损失与模型大小在对数-对数图上的近似直线拟合。指数β值越大，对应的斜率越陡，随着数据/模型大小的增加，性能越好。图4给出了给定数据集大小，损失随着模型参数量的变化，且通过不同数据集大小，β值的大小演示了数据集大小对模型性能的影响。而拟合直线的断裂也标示着分辨率受限区域的存在。",{"type":17,"tag":25,"props":277,"children":278},{},[279],{"type":17,"tag":80,"props":280,"children":282},{"alt":7,"src":281},"https://obs-mindspore-file.obs.cn-north-4.myhuaweicloud.com/file/2024/02/02/d7aa947200ba4fef97f753b02fc7f979.png",[],{"type":17,"tag":25,"props":284,"children":285},{},[286],{"type":23,"value":287},"图4. 拟合ChemGPT中的neural scaling公式",{"type":17,"tag":25,"props":289,"children":290},{},[291],{"type":23,"value":292},"在scaling法则成立范围内，模型性能与数据集大小，模型大小及容量是具有单调性的（图5左）。表明在一定量级内，想要提升模型性能，可以通过简单的增加数据集或者扩大模型得到提升。与此同时，对于GNNs/NFFs，低容量模型的收益随着数据集大小的增加而递减，而高容量模型则随着数据集大小的增加而快速改善（图5右）。因此，扩展模型和数据集大小的好处应该与增加的计算成本进行平衡，以找到计算和数据效率最高的改进机会。",{"type":17,"tag":25,"props":294,"children":295},{},[296],{"type":17,"tag":80,"props":297,"children":299},{"alt":7,"src":298},"https://obs-mindspore-file.obs.cn-north-4.myhuaweicloud.com/file/2024/02/02/0bf80c8e4e1a4585ba009ffb03f65af3.png",[],{"type":17,"tag":25,"props":301,"children":302},{},[303],{"type":23,"value":304},"图5. 化学GPT模型性能的神经缩放（验证损失）是模型（非嵌入参数的数量）和数据集（令牌的数量）大小的函数",{"type":17,"tag":25,"props":306,"children":307},{},[308,310],{"type":23,"value":309},"**3、**",{"type":17,"tag":31,"props":311,"children":312},{},[313],{"type":23,"value":314},"感想",{"type":17,"tag":25,"props":316,"children":317},{},[318],{"type":23,"value":319},"该研究工作的核心贡献是发现了用于缩放化学领域大语言模型和GNN原子间势的策略（neural scaling law），量化了模型损失如何在多个数量级上取决于模型规模和数据集大小。并且发现对于化学领域大语言模型和NFF，在模型大小、数据集大小或计算方面都没有饱和模型损失。最后，基于物理的先验对scaling行为的影响提供了丰富的描述，说明了将物理、已知的经验关系和其他形式的知识纳入机器学习框架是如何影响学习质量和效率的。",{"type":17,"tag":25,"props":321,"children":322},{},[323],{"type":23,"value":324},"研究结果为科学深度学习中的尺度研究提供了动力和实践指导，并为大规模和物理深度学习的交叉点提供了许多富有成效的新研究方向。这些结果可以优化分配计算和数据预算，以实现最大效率的模型损失改进，并使可扩展的科学深度学习更适合更广泛的研究领域。",{"type":17,"tag":326,"props":327,"children":329},"h2",{"id":328},"参考文献",[330],{"type":17,"tag":31,"props":331,"children":332},{},[333],{"type":23,"value":328},{"type":17,"tag":25,"props":335,"children":336},{},[337,339],{"type":23,"value":338},"[1]Frey, N.C., Soklaski, R., Axelrod, S. et al. Neural scaling of deep chemical models. Nat Mach Intell 5, 1297–1305 (2023). ",{"type":17,"tag":340,"props":341,"children":345},"a",{"href":342,"rel":343},"https://doi.org/10.1038/s42256-023-00740-3",[344],"nofollow",[346],{"type":23,"value":342},{"type":17,"tag":25,"props":348,"children":349},{},[350,352],{"type":23,"value":351},"[2]",{"type":17,"tag":340,"props":353,"children":356},{"href":354,"rel":355},"https://github.com/ncfrey/litmatter.git",[344],[357],{"type":23,"value":354},{"type":17,"tag":25,"props":359,"children":360},{},[361,363],{"type":23,"value":362},"[3]",{"type":17,"tag":340,"props":364,"children":367},{"href":365,"rel":366},"https://github.com/learningmatter-mit/NeuralForceField.git",[344],[368],{"type":23,"value":365},{"type":17,"tag":25,"props":370,"children":371},{},[372,374],{"type":23,"value":373},"[4]",{"type":17,"tag":340,"props":375,"children":378},{"href":376,"rel":377},"https://github.com/datamol-io/molfeat.git",[344],[379],{"type":23,"value":376},{"type":17,"tag":25,"props":381,"children":382},{},[383,385],{"type":23,"value":384},"[5]",{"type":17,"tag":340,"props":386,"children":389},{"href":387,"rel":388},"https://github.com/coleygroup/rogi-xd.git",[344],[390],{"type":23,"value":387},{"type":17,"tag":25,"props":392,"children":393},{},[394],{"type":23,"value":395},"往期回顾",{"type":17,"tag":18,"props":397,"children":398},{"id":7},[399],{"type":17,"tag":340,"props":400,"children":403},{"href":401,"rel":402},"http://mp.weixin.qq.com/s?__biz=MzkxMTM2MjMzNg==&mid=2247613185&idx=1&sn=e3a032720426aab204582e244d318953&chksm=c11e2b4ef669a2585c1ed10ef619133359b4008b3a227b5c089e58131b810bdc9dd1bafd814b&scene=21#wechat_redirect",[344],[],{"type":17,"tag":18,"props":405,"children":407},{"id":406},"mindspore-ai科学计算系列-gnn-mom基于昇思mindspore-elec的图残差学习电磁求解器",[408],{"type":17,"tag":340,"props":409,"children":412},{"href":410,"rel":411},"http://mp.weixin.qq.com/s?__biz=MzkxMTM2MjMzNg==&mid=2247614352&idx=1&sn=6eddd5488123a7bfbb85681317d6b950&chksm=c11e2fdff669a6c95c412f2e5711d34310f56cd9d468bd7a5c0edecc6cfd6cd55ecefee097a0&scene=21#wechat_redirect",[344],[413],{"type":23,"value":414},"MindSpore AI科学计算系列 | GNN-MoM基于昇思MindSpore Elec的图残差学习电磁求解器",{"type":17,"tag":18,"props":416,"children":418},{"id":417},"mindspore-ai科学计算系列-vae基于mindspore-elec的特征域mt反演提升大地电磁反演的精度和分辨率",[419],{"type":17,"tag":340,"props":420,"children":423},{"href":421,"rel":422},"http://mp.weixin.qq.com/s?__biz=MzkxMTM2MjMzNg==&mid=2247613627&idx=1&sn=ad3dd2c6f59f0626a93afb93c736123e&chksm=c11e2cf4f669a5e22f5c7f33c3088e3efa800f13cb1cfac88f583df387787f3087f941167dd3&scene=21#wechat_redirect",[344],[424],{"type":23,"value":425},"MindSpore AI科学计算系列 | VAE基于MindSpore Elec的特征域MT反演，提升大地电磁反演的精度和分辨率",{"type":17,"tag":18,"props":427,"children":429},{"id":428},"mindspore-ai科学计算系列-allegro提升昇思分子势能预测准确性将上线mindspore-chemistry",[430],{"type":17,"tag":340,"props":431,"children":433},{"href":401,"rel":432},[344],[434],{"type":23,"value":435},"MindSpore AI科学计算系列 | Allegro提升昇思分子势能预测准确性，将上线MindSpore Chemistry",{"type":17,"tag":25,"props":437,"children":438},{},[439],{"type":17,"tag":340,"props":440,"children":443},{"href":441,"rel":442},"http://mp.weixin.qq.com/s?__biz=MzkxMTM2MjMzNg==&mid=2247612095&idx=1&sn=0ffc537fe0dce27be07c2e87ff587b58&chksm=c11e26f0f669afe60444d9415ef306948caa081f2f985424e920ff904922a2bda08042a3c240&scene=21#wechat_redirect",[344],[444],{"type":23,"value":445},"MindSpore AI科学计算系列 | 周期性图Transformer提升MindSpore模型对晶体性质的预测",{"title":7,"searchDepth":447,"depth":447,"links":448},4,[449,451,452],{"id":213,"depth":450,"text":219},3,{"id":239,"depth":450,"text":245},{"id":328,"depth":453,"text":328},2,"markdown","content:technology-blogs:zh:2966.md","content","technology-blogs/zh/2966.md","technology-blogs/zh/2966","md",1776506124807]