携手昇思,中科大刘海燕团队、元构生物共同研发蛋白质结构预测与设计模型
携手昇思,中科大刘海燕团队、元构生物共同研发蛋白质结构预测与设计模型
近日,中国科学技术大学刘海燕教授团队、安徽元构生物科技有限公司与昇思团队联合推出了基于昇思MindSpore AI框架打造的蛋白质结构预测与设计模型PVQD[1]。该模型通过一维向量序列的离散隐空间编码,用统一的扩散生成模型实现单序列预测动态构象分布、构象柔性等能力。PVQD模型融合AI+生物计算技术,在蛋白质结构预测领域实现突破性创新,在药物靶点发现上具有重要价值,将为生物制药产业带来全新研发动力。
目前的蛋白质结构设计方法直接在三维坐标空间进行结构变换,计算复杂度高,生成的蛋白质结构或存在局部结构缺陷,实验难以实现;或过于规则和刚性,缺乏类似天然蛋白的动力学构象变化。另一方面,蛋白质结构预测方法原理上只能预测单一构象,难以涵盖功能蛋白质通常具有的多种构象。PVQD将这两个科学问题整合到同一个蛋白质结构编码-解码和生成框架中,为科研人员提供了一种全新的端到端蛋白质结构预测与设计解决方案。
PVQD模型的创新之处在于将蛋白质结构编码为旋转平移不变的离散隐空间一维向量序列,通过一维向量扩散生成,能够迅速获得高质量的蛋白质结构。扩散模型通过学习蛋白质主链结构在向量化、离散化隐空间表示下的分布,可以在语义级别上学习到物理上合理结构的分布特性,且模型架构相较于三维结构的扩散模型更为简单,不受对空间平移旋转等对称变换的等变性的约束。
该模型在蛋白质设计任务上表现出色。与此前设计方法相比较,PVQD能够生成β结构及长环区含量更接近天然蛋白的结构【图 1】,这样的结构柔性更高,可以承载更丰富的构象动力学【图 2】。这种主链构象柔性与构象动力学对实现重要的蛋白质功能(如酶催化和变构调控)至关重要。

图 1 与现有SOTA工作(RFdiffusion & SCUBA-D)相比,
PVQD生成的蛋白质α螺旋与β链的频率更符合天然分布,同时环状结构也更长。

图 2 PVQD生成的蛋白质主链构象的柔性相比较此前方法设计的结构可以承载更丰富的构象动力学
PVQD模型在单氨基酸序列结构预测方面表现卓越,预测精度与现有先进方法性能相当,并可用于采样蛋白质构象动力学引起的多种不同结构。与实验所得结构相比,PVQD生成的多个结构与不同实验结构的最小差别小于实验结构本身间的差异。在对表现出不同类型动态变化的蛋白质进行预测时,PVQD与实验结构展示了几乎相同的高变区域【图 3】,显示出其广泛适用于天然蛋白质的构象动力学研究,为揭示蛋白质动态构象变化提供新的研究工具,有望在药物靶点发现领域发挥重要作用。

图 3 以同一蛋白在和小分子结合前后的不同构象1e1rF和1wojE为例,
PVQD在预测两种构象上的准确性高达0.98,AlphaFold2仅有0.86/0.93
刘海燕教授团队、元构生物与昇思MindSpore团队的合作也彰显了AI for Science科研新范式在加速基础学科创新方面的巨大潜力,为推动产学研用合作模式提供了成功的范例。
参考文献
[1] Diffusion in a quantized vector space generates non-idealized protein structures and predicts conformational distributions. https://biorxiv.org/cgi/content/short/2023.11.18.567666v1