MindSpore AI科学计算系列 | 用于结合构象预测和虚拟筛选的打分函数RTMScore
MindSpore AI科学计算系列 | 用于结合构象预测和虚拟筛选的打分函数RTMScore
**作者:**于璠 |来源:知乎
背景
药物设计最基本目标是预测给定分子是否会与靶标结合,以及结合的强度。这个目标可以通过相关的实验技术实现,但是通过实验的方法往往是昂贵而且耗时的,不适合早期大规模筛选。因此,分子对接作为一种计算替代方案被提出,可以快速预测靶标与配体之间的结合模式并评估结合强度。分子对接技术一般包含两个步骤,首先基于构象搜索算法对配体分子的构象进行采样,然后采用打分函数来评估蛋白与配体分子各个构象的结合强度,得分最高的构象被认为是最合理的配体分子的结合构象。打分函数的性能直接影响了结合构象的选取以及结合强度的准确性。
随着机器学习(Machine Learning,ML)和人工智能的快速发展,大量基于机器学习的打分函数(Machine Learning-based SF,MLSF)被报道,这些打分函数的性能明显优于传统方法,但由于其泛化能力较差,受到了许多质疑。因此继续开发预测精度更高且泛化能力更强的打分函数仍然很有必要。
论文:
Boosting Protein-Ligand Binding Pose Prediction and Virtual Screening Based on Residue-Atom Distance Likelihood Potential and Graph Transformer
链接:
https://pubs.acs.org/doi/10.1021/acs.jmedchem.2c00991
代码:
https://github.com/sc8668/RTMScore
模型
RTMScore主要包含三个模块:特征提取模块、特征拼接模块、混合密度网络。首先向模型中输入三维的蛋白口袋和配体小分子,并分别表示为三维残基图和二维分子图。然后进入特征提取模块,通过多层Graph Transformer分别提取口袋中的氨基酸残基和配体分子中各原子的节点特征。随后,利用特征拼接模块将节点特征两两拼接起来,输入到混合密度网络中,计算拟合混合密度模型所需的参数。通过混合密度模型获取蛋白口袋中各氨基酸残基与配体分子中各原子的最短距离概率分布,再将所有统计值以负对数似然的形式进行加和,即可得到用于表示最终蛋白-配体结合能力的统计势。

图1 RTMscore总体流程图
数据集
训练&验证:
PDBbind-v2020:首先对数据集中的蛋白用Schrödinger 2020的Protein Preparation Wizard模块进行了重新处理。共得到19 149个复合物,17649训练,1500验证
测试集:
CASF-2016:评估打分函数能力的标准数据集,包含285种不同的蛋白配体复合物
DEKOIS:包含81种靶点,每个靶点包含40个活性配体和1200个诱饵
DUDE:包含102种靶点,共包含22 886个活性配体,每个活性化合物约有50个诱饵、
PDBbind-CrossDocked-Core:在PDBbind-v2016核心集的基础上,通过三个对接程序(Surflex-Dock、 Glide SP、和AutoDock Vina),将同一cluster中的配体分别对接到相应蛋白(重对接构象)或其他蛋白(交叉对接构象)的口袋中,生成数据集,共6个子集。
结果
作者在打分函数评价的基准数据集CASF-2016上评估了RTMScore的对接和筛选能力。RTMScore的平均top1对接成功率可在有无天然构象存在的条件下分别达到97.3%和93.4%;在筛选能力评估中,RTMScore的平均top1成功率为66.7%,1%富集因子为28.00。


同时,作者还在构造的交叉对接数据集PDBbind-CrossDocked-Core上进一步评估了RTMScore的对接能力。RTMScore在大部分情况下都能超越传统方法和基于XGBoost构建的构象分类器。

图3. 在PDBbind-CrossDocked-Core上对接能力评估
接下来,作者还在两个虚拟筛选数据集DEKOIS2.0和DUD-E上进一步测试了RTMScore的筛选能力。在这两个数据集上,都是先用对接软件进行了构象搜索,每个配体最多保留了10个构象,然后再使用RTMScore进行打分。结果表明,RTMScore筛选能力明显优于以相似策略构建所的DeepDock以及传统方法。

图4. 在DEKOIS2.0上筛选能力评估

图5. 在DUD-E上筛选能力评估
总结
打分函数RTMScore在对接和筛选任务的预测精度和泛化能力均显著优于传统方法,可以将其与分子对接软件结合,用于结合构象预测或虚拟筛选。值得一提的是,该方法将蛋白口袋结构表示为三维残基图,以残基为节点还是较为粗粒化,会导致部分三维信息丢失,能否将蛋白口袋结构表示为更为精细的三维原子图,将也会是接下来的研究方向。