关闭

使用AlphaFold的最先进的蛋白质模型精度估计

詹姆斯·p·罗尼,谢尔盖Ovchinnikov

预印本发布于2022年3月24日https://www.biorxiv.org/content/10.1101/2022.03.11.484043v2.full

AlphaFold可能不仅仅是一个模式识别算法,而且可能实际上已经了解了蛋白质折叠的能量学。

选择 基兰迪迪

背景(约400字)

去年,赢得第14届结构预测关键评估(CASP14)比赛的DeepMind团队发表了这篇论文,蛋白质结构预测领域发生了革命性的变化2以及AlphaFold (AF2)模型的代码。蛋白质折叠问题的这一重大进展为生物学和医学许多领域的进展带来了希望,因为蛋白质结构对药物发现和蛋白质工程等研究至关重要,但通常只能通过昂贵而费力的实验方法获得,如x射线晶体学、冷冻电子显微镜和核磁共振波谱学。这些方法使科学家能够阐明超过10万个蛋白质结构(可通过蛋白质数据库获得),但成本高昂,涉及大量的试验和错误。计算方法试图通过预测线性蛋白质序列的3D结构来简化这一过程,而无需实验确定它。

早期简化蛋白质结构预测的努力旨在捕捉控制蛋白质折叠的物理过程,并模拟折叠过程以获得准确的结构;一个典型的例子是由西雅图华盛顿大学的大卫·贝克及其同事开发的罗塞塔软件套件。在90年代,共同进化信息被认为是蛋白质结构预测的有价值的输入。为此,构建了进化相关蛋白之间的多重序列比对(msa),并基于氨基酸的共同进化推断了空间接触。最后,机器学习特别是深度学习领域的进步也对结构生物学社区产生了影响,AlphaFold等庞大的模型产生了最先进的蛋白质结构预测。

关于AlphaFold的一个悬而未决的问题是,该模型是否学习了蛋白质折叠问题的底层物理,或者“只是”一种固有地依赖于所提供的msa的模式匹配算法。由于自然界中的蛋白质自身折叠速度惊人(一种被称为列文塔尔悖论的现象),其中一些蛋白质在变性后可以折叠(正如Anfinsen所观察到的那样3.), 3D结构必须单独编码在蛋白质序列中。因此,安芬森的教条指出,蛋白质折叠是自由能最小化的结果。这种自由能取决于蛋白质结构,是早期基于物理的预测工具试图近似的(例如,在分子动力学模拟等技术中仍然是近似的)。

预印本图1:共同进化信息在AlphaFold预测过程中的假设作用。据此,AlphaFold隐式学习了蛋白质构象景观的能量函数。

在这篇预印本中,Roney和Ovchinnikov通过测试AlphaFold学习了这个能量函数并使用共同进化信息来找到这个构象景观中能量最小值的一个良好的初始猜测来解决这个问题,因此理解了蛋白质折叠问题的一些潜在物理问题。他们利用这一假设重新连接AlphaFold,这样他们就可以用它来排列诱饵蛋白质结构,在这项任务中表现得比最先进的(SOTA)模型更好。

主要发现(约500字)

利用AF2对候选蛋白结构进行排序

在结构预测过程中,AlphaFold使用目标蛋白氨基酸序列与相关序列的MSA作为输入。作为一种额外的选择,可以提供接近目标蛋白质序列的已知蛋白质结构(称为模板)来改善预测结果。然后,该模型输出预测的蛋白质结构和该预测的两个置信度指标:预测的LDDT-Cα评分(pLDDT)和预测的TM评分(pTM)。

为了将AlphaFold的目标从预测蛋白质结构转变为对候选结构进行排名,作者进行了三次调整。首先,它们不是提供已知的蛋白质结构作为模板,而是提供一个“诱饵结构”,作为目标蛋白质的候选结构,例如由另一个模型预测的结构。此外,他们不提供MSA作为输入,而只是目标蛋白的氨基酸,因此剥夺了模型使用共同进化信息的能力。最后,他们根据现有的指标计算了一个新的输出指标,称为“综合置信度评分”:他们将输出pLDDT、输出pTM和TM评分乘以AlphaFold预测的结构和诱饵之间。最后一项是必要的,因为主要目标不是评估预测结构的质量,而是作为模板给出的诱饵结构的质量。

作者使用这种方法对来自Rosetta诱饵数据集的诱饵进行排名,该数据集包含133种天然蛋白质结构以及数千种诱饵结构变体,并将其性能与Rosetta等常用诱饵排名工具进行比较4以及SOTA机器学习模型DeepAccNet5.他们基于AlphaFold的方法在可信度度量与诱饵质量的Spearman相关性和诱饵结构的top-1精度方面都远远优于Rosetta和DeepAccNet。

独立于诱饵氨基酸序列的排序质量

作者为模型提供的诱饵结构掩盖了侧链,有助于提高精度。由于诱饵结构现在基本上只由骨架和c β-原子组成,任何正确长度的序列都可以作为输入输入模型,而不是目标蛋白的正确序列。作者通过使用两种不同的单热编码序列输入(真实目标序列和全丙氨酸序列)进行实验,研究了这一参数的影响。他们发现,这两种选择在Rosetta诱饵数据集上都提供了稳健的结果,全丙氨酸序列在相关指标上表现更好,正确的目标序列在top-1精度上表现更好。然后,作者利用这一结果进一步扩展了他们关于诱饵排名预测的内部工作原理的假设:在目标序列输入的情况下,该序列和模板的屏蔽序列是相同的,因此结构预测可能非常相似。由于全局几何结构非常相似,因此用于计算综合得分的置信度指标更依赖于局部折叠特征,从而在前1的精度上提供更好的结果。

对于全丙氨酸序列,情况则相反:由于序列相似性非常低,诱饵和预测之间的全局对称性将有很大差异,导致置信度指标受到全局折叠的强烈影响,模型在一般相关指标上表现更好。使用加权混合方法,作者能够结合两种方法的优点,并优于单独提供任何一种输入所获得的结果。

来自CASP14的评估:msa需要精确的结构预测,而不是诱饵排名

为了在一个独立的数据集上检验他们的假设,作者使用了CASP14 EMA(模型精度估计)任务。在这里,他们表明AlphaFold确实能够比来自CASP14的顶级模型在没有共同进化信息的情况下更好地对诱饵进行排名,但仍然需要msa本身进行结构预测。在没有msa的情况下,它可以可靠地对预测的诱饵进行排名,但在产生结构预测方面表现不佳,进一步支持了作者的假设,即共同进化信息用于对学习的能量景观提供良好的初始猜测,结构模块从中执行局部梯度下降到能量最小值。

我为什么选择这个预印本(约100字)

AlphaFold的发表通过改进实验结构预测,以及为世界各地的研究人员提供数以千计的预测结构,对结构生物学社区和生命科学产生了重大影响。然而,更困难的问题,如蛋白质设计仍然是一个挑战。这个预印本的主要假设(即AlphaFold已经学习了某种潜在的能量函数)提出了一个新颖的想法,提出了解决结构生物学中具有挑战性的问题的新角度。

给作者的问题(约2个问题)

1.预印本为您的假设提供了证据,即AF2学习蛋白质折叠的能量函数,但还有哪些其他实验可以用来支持/证伪您的假设?

2.对于蛋白质结构的预测,msa似乎仍然不可或缺。如果你的假设是正确的,那么这种新的见解可以在哪些方面用于诸如蛋白质设计/单序列结构预测等问题?

参考文献

(1)罗尼,j.p.;Ovchinnikov, S.使用AlphaFold的最先进的蛋白质模型精度估计。bioRxiv 2022年3月12日,p 2022.03.11.484043。https://doi.org/10.1101/2022.03.11.484043。

(2)跳线,j;埃文斯,r;Pritzel, a;绿色,t;Figurnov m;Ronneberger o .;Tunyasuvunakool k;贝茨,r;Židek, a;Potapenko, a; Bridgland, A.; Meyer, C.; Kohl, S. A. A.; Ballard, A. J.; Cowie, A.; Romera-Paredes, B.; Nikolov, S.; Jain, R.; Adler, J.; Back, T.; Petersen, S.; Reiman, D.; Clancy, E.; Zielinski, M.; Steinegger, M.; Pacholska, M.; Berghammer, T.; Bodenstein, S.; Silver, D.; Vinyals, O.; Senior, A. W.; Kavukcuoglu, K.; Kohli, P.; Hassabis, D. Highly Accurate Protein Structure Prediction with AlphaFold.自然2021596(7873), 583 - 589。https://doi.org/10.1038/s41586 - 021 - 03819 - 2。

(3)安芬森,c.b.;蛋白质折叠的实验和理论方面。在蛋白质化学进展;安芬森,C. B.,埃德索尔,J. T.,理查兹,F. M., Eds.;学术出版社,1975;卷29,页205-300。https://doi.org/10.1016/s0065 - 3233(08) 60413 - 1。

(4)鲁宾斯坦,文学学士;布莱克,k;阮,h;凯斯,文学博士;琥珀和罗塞塔能量函数用于蛋白质结构评估的系统比较。j .化学。理论第一版。201814(11), 6015 - 6025。https://doi.org/10.1021/acs.jctc.8b00303。

(5)平沼,n;公园,h;门敏,m;Anishchenko i;Dauparas, j .;Baker, D.改进的基于深度学习的精度估计指导下的蛋白质结构优化。Commun Nat。202112(1), 1340。https://doi.org/10.1038/s41467 - 021 - 21511 - x。

标签:alphafoldcasp蛋白质结构预测罗塞塔

发布时间:2022年4月13日

doi:https://doi.org/10.1242/prelights.31785

读预印本 (暂无收视率)




作者的回应

詹姆斯·罗尼分享了

谢谢你的分享!我认为你的文章很好地总结了我们的预印本,我很高兴你觉得它很有趣!你在最后提出的两个问题非常重要,我们希望在未来有力地解决它们。以下是对这些问题的一些初步看法:

1.如果AlphaFold已经学习了一个能量函数,我们可能会期望它对其他应用有用,比如预测单个突变对蛋白质稳定性的影响,或者提高蛋白质设计的准确性。这意味着一些新的实验可以用来测试我们在预印本中提出的假设,我们论文的未来版本可能会包含其中的一些实验。
2.使用AlphaFold学习到的能量函数来预测单个序列的蛋白质结构是一种非常令人兴奋的可能性,这是我们在预印本中提出的假设所开辟的。理论上,应该有可能搜索可能的诱饵构象空间,以找到产生AlphaFold高置信度输出的结构。然而,目前尚不清楚这在计算上是否普遍可行,或者这样的搜索是否可能发现“欺骗”AlphaFold使其高度自信的对抗性结构。在我们最新版本的预印本中,我们在附录e中探索了一种优化诱饵结构的简单方法。从本质上讲,我们展示了一个简单的贪婪优化过程可以用于提高AlphaFold对许多蛋白质目标的msa无预测的准确性。我们仍有很多工作要做,以确定这种方法是否可以改进和推广,但我们认为这是一个非常有趣的概念验证。

你有话要说

你的电邮地址将不会公布。必填字段已标记

这个网站使用Akismet来减少垃圾邮件。了解如何处理您的评论数据

注册,自定义网站,以您的喜好和接收警报

注册在这里
关闭