蛋白质结构预测的解决方案
项目说明
案例背景
蛋白质结构预测是获得蛋白质功能结构和构象的过程,近半个世纪以来,这一问题一直被誉为“21 世纪的生物物理学”最重要的课题之一。
在过去,因蛋白质构象数量巨大,计算过程复杂,通过 AI 来对蛋白质结构进行预测一直未能取得实质性突破,获取蛋白质空间结构的方法仍然以冷冻电镜、X-ray 等实验技术为主,单个蛋白质的观测成本高达数月及数百万人民币。 直至 AlphaFold 2 的出现,使得这一问题迎来新的曙光。AlphaFold 2 凭借其接近实验精度的成绩取得 CASP14 蛋白质空间结构预测比赛的榜首,这一成就也被 Nature 誉为“前所未有的进步”。
2021 年 7 月 DeepMind 团队宣布对 AlphaFold 2 的推理源代码进行开源,华为与北京昌平实验室、北京大学生物医学前沿创新中心(BIOPIC)和化学与分子工程学院、深圳湾实验室高毅勤课题组第一时间对其进行了复现及优化,并于同年 11 月开源了基于昇思 MindSpore 的推理工具,效率同比提升 2-3 倍。
日前,华为与北京昌平实验室、北京大学生物医学前沿创新中心(BIOPIC)和化学与分子工程学院、深圳湾实验室高毅勤教授课题组,在全场景 AI 框架昇思 MindSpore 上推出全流程蛋白质结构预测工具 MEGA-Protein。
案例简介
一、AlphaFold 2 的缺陷
为了满足预测精度,AlphaFold 2 必须引入多序列比对的信息。MSA 的数量决定了 AlphaFold 2 的预测精度,因此 AlphaFold 2 有着自己的缺陷:
自然界中的「孤儿序列」以及人造序列存在着缺少 MSA 或没有 MSA 的情况,导致 AlphaFold 2 等模型对相关的结构预测准确度大幅下降。
AlphaFold 2 等标准检索 MSA 流程,数据库规模大,搜索时间长,不利于展开研究。
二、AI MSA 引擎
昇思 MindSpore 社区与昌平实验室、北京大学生物医学前沿创新中心(BIOPIC)和化学与分子工程学院、深圳湾实验室高毅勤教授课题组新提出的 AI MSA 引擎具有如下几个优势:
于原始 MSA 质量不高或者数量少的蛋白,将 AI MSA 引擎接入 AlphaFold 2 后可以明显改善结构预测的质量。 端到端推理性能大幅提升,训练完成的 AI MSA 引擎不需要额外配置数据库。
AI MSA 引擎是一种对下游结构模型普适的预训练方案,可直接接入下游结构预测模型。
三、昇思 MindSpore AI 框架
AI MSA 引擎训练参数量,数据量巨大,训练要求高,昇思 MindSpore AI 框架充分发挥以下优势,支撑完成 AI MSA 引擎的训练。
昇思 MindSpore 在昇腾 AI 基础软硬件平台上与昇腾 CANN 深度结合,通过深度协同优化的高性能算子库,充分释放硬件的算力。
昇思 MindSpore 采用了多段并行流水线的方式来构建数据处理 pipeline,大幅提高了数据处理过程的吞吐量。 昇思 MindSpore 支持大集群高效训练,实现了优质的计算通信比,通过三层 AI 分布式编程范式,大幅提升分布式并行程序开发效率。
四、全流程蛋白质结构预测工具 MEGA-Protein
MEGA-Protein 包含 AI MSA 引擎、蛋白质折叠训练推理流程、蛋白质结构打分、蛋白质结构预测数据集 PSP 等关键技术,能够高精度高性能地预测蛋白质结构和功能,其中 AI MSA 引擎能够在 MSA 少样本甚至零样本的情况下,帮助 AlphaFold 2 等模型维持甚至提高推理精度,有效突破了 AlphaFold 2 的缺陷。
这是在实现 AlphaFold 2 从训练到推理全流程打通且效率同比提升 2 至 3 倍后,取得的又一次成功。