用于分子动力学模拟轨迹后处理的马尔可夫模型(MSM)
📖 Getting Started Guide
使用方式: 您可以在 Bohrium Notebook. 上直接运行。您可以点击界面上方蓝色按钮 开始连接 选择 bohrium-notebook:2023-04-07 Image 镜像及任何一款节点配置,稍等片刻即可运行。如您遇到任何问题,请联系 [bohrium@dp.tech](mailto:bohrium@dp.tech)。
目标:
本文档旨在掌握用于分子动力学模拟轨迹后处理的马尔可夫模型
掌握对模拟轨迹进行降维,建模,分析等步骤
背景:
你需要提前掌握:
利用Gromacs, Amber, NAMD等软件进行分子动力学模拟,得到模拟轨迹;
Reference:
- http://msmbuilder.org/development/examples/Fs-Peptide-in-RAM.html
- Husic, B. E. & Pande, V. S. Markov State Models: From an Art to a Science. J. Am. Chem. Soc. 140, 2386–2396 (2018).
- An Introduction to Markov State Models and Their Application to Long Timescale Molecular Simulation. vol. 797 (Springer Netherlands, 2014).
前言
马尔可夫状态模型
马尔可夫状态模型(MSM)是一种应用于分子动力学模拟的数学模型,可用于识别动力学相关的状态,通过估计转移概率矩阵而对这些状态之间的相互转换进行准确描述。MSM 允许高度并行化采样和系统统计描述,可以使用一组短时 MD 模拟来预测热力学信息和长时间尺度(例如毫秒)上的动力学信息。近些年来广泛应用于如蛋白质折叠、分子识别和小分子扩散等领域。
MSM基本原理
马尔可夫状态模型的基本结构可以用数学公式表示如下:
- 状态空间:设状态空间为 {S1, S2, ..., Sn},其中Si表示第i个状态。
- 状态转移概率:状态转移矩阵P表示系统从状态Si转移到状态Sj的概率,即 P(Si, Sj) = P(X(t+1) = Sj | X(t) = Si) 其中,P(Si, Sj)是从状态Si到状态Sj的转移概率,X(t)表示在时间t时刻系统的状态。
- 马尔可夫性质:马尔可夫性质可以用条件概率的形式表示为 P(X(t+1) = Sj | X(t) = Si, X(t-1) = Sk, ..., X(0) = S0) = P(X(t+1) = Sj | X(t) = Si) 即在给定当前状态下的未来状态的条件概率只与当前状态有关,与过去状态无关。
- 固定转移概率:状态转移概率在整个过程中保持不变,即 P(Si, Sj) = P(X(t+1) = Sj | X(t) = Si) 对于所有的时间点t。
- 状态转移的可达性:通过状态转移矩阵P,可以计算系统在不同时间点之间的状态转移概率。对于给定的时间步长t,可以计算t步转移概率矩阵 P^t,其中 (P^t)(Si, Sj) = P(X(t) = Sj | X(0) = Si) 表示系统在时间t时刻从状态Si转移到状态Sj的概率。
MSM构建流程
Workflow
为了建立动态模型,我们(逐步地)进行了一系列降维处理。基本步骤概述如下。请注意,大多数步骤在某些情况下是可选的。在继续阅读文档的过程中,具体步骤会逐渐清晰。
- 建立分子动力学系统,在尽可能多的 CPU 或 GPU 上尽可能长时间地运行一次或多次模拟。有很多运行 MD 的优秀软件包,如 OpenMM、Gromacs、Amber、CHARMM 等。MSMBuilder 并非其中之一。
- 将轨迹特征化为适当的特征向量。完整的 3N 原子坐标集可能既笨重又冗余。它很可能也不尊重你的系统的旋转或平移对称性。我们通常使用骨架二面角作为特征,不过这在很大程度上取决于所建模的系统。
- 将特征分解成一个新的基础,以更少的维度保留数据中的相关信息。我们通常使用 tICA,它可以找到输入自由度的线性组合,从而最大限度地提高自相关性或 "慢度"。
- 对数据进行聚类,通过将相似的输入数据点分组来定义(微)状态。在这一阶段,我们已经将问题的维度从潜在的数千个 xyz 坐标降低到了单个聚类(状态)索引。
- 从聚类数据中估计模型。我们通常会建立一个 MSM,对系统的重要动态进行建模。
- 使用 GMRQ 交叉验证来选择最佳模型。工作流程中有许多超参数(可调整的旋钮)。这个评分函数可以帮助我们选出最佳值。
使用pyemma包来进行处理和分析
Retrieving notices: ...working... done /opt/conda/lib/python3.8/site-packages/urllib3/connectionpool.py:1045: InsecureRequestWarning: Unverified HTTPS request is being made to host 'repo.anaconda.com'. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/1.26.x/advanced-usage.html#ssl-warnings warnings.warn( /opt/conda/lib/python3.8/site-packages/urllib3/connectionpool.py:1045: InsecureRequestWarning: Unverified HTTPS request is being made to host 'repo.anaconda.com'. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/1.26.x/advanced-usage.html#ssl-warnings warnings.warn( /opt/conda/lib/python3.8/site-packages/urllib3/connectionpool.py:1045: InsecureRequestWarning: Unverified HTTPS request is being made to host 'conda.anaconda.org'. Adding certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/1.26.x/advanced-usage.html#ssl-warnings warnings.warn( Collecting package metadata (current_repodata.json): ...working... done
Showcase pentapeptide: a PyEMMA walkthrough
在该案例中,我们介绍了PyEMMA 的最基本功能。以对五肽的分析作为MSM分析分子动力学轨迹的示例工作流程。 我们展示了使用25个独立的五肽模拟的轨迹进行处理的PyEMMA工作流程:
用隐式溶剂模拟五肽,并用0.1 ns时间步长。
由于不知道哪个功能最能描述系统,我们从广泛的系统分析开始。为了简单起见,我们只对主干动力学建模感兴趣。因此,我们只考虑描述主链的特征,而不考虑侧链的特征。在 PyEMMA 中,是包含系统拓扑的中心对象。通过添加目标特征可以轻松计算特征,例如,使用 .我们将加载主干扭转角、主臂重原子位置和主臂重原子距离。⚠️ 请注意,这些结构之前已经对齐过。由于在这种情况下,我们失去了周期框的跟踪,因此我们必须关闭距离和扭转角计算的periodic标志。
Feature selection
我们现在将通过VAMP2分数对三种特征进行排名,该分数测量这些特征中包含的动力学方差 mcgibbon-15,wu-17,mardt-17。此分数的最小值为 ,它对应于不变测度或均衡。 当我们比较具有不同维度的特征化时,我们使用维度参数来提供评分中包含的动态过程数量的上限。
⚠️ 请注意,VAMP-2 分数不适合选择合适的延迟时间,因为不同延迟时间的分数没有可比性。
在这里,我们只是分别比较每个给定滞后时间的不同功能。我们一直发现骨架扭转略有优势。
因此,我们通过改变几个滞后的尺寸参数,为骨架扭转添加了更详细的VAMP2分数分析:
我们观察到,对于超过0.5 ns的滞后时间,使用四个以上的维度不会增加分数,即前四个维度包含慢速动力学的所有相关信息。基于此结果,我们尝试滞后时间为0.5 ns(5步)的TICA投影。请注意,这是建模者根据我们目前可用的最佳启发式方法选择的。在 MSM 估计之后,可能需要重新调整 TICA 滞后时间。
Coordinate transform and discretization
TICA
下一步的目标是找到一个函数,将通常的高维输入空间映射到一些捕捉重要动态的低维空间中。建议使用时滞独立分量分析(TICA)进行操作,molgedey-94,perez-hernandez-13。我们使用从VAMP-2得分获得的滞后时间进行TICA(使用动力学映射缩放)。通过使用tica()函数的默认参数,我们将使用尽可能多的维度以保留95%的动力学方差。默认情况下,tica()还应用了动力学映射缩放。该缩放确保投影空间中的欧几里得距离逼近动力学距离,在后续离散化过程中具有益处。 请注意,通用的PyEMMA API对于所有估计器都是一致的。通过使用数据调用TICA估计器(tica = pyemma.coordinates.tica(torsions_data)),完成估计并返回一个估计器实例(tica);此对象包含有关特定转换的所有信息。对于小型系统,我们可以通过调用tica.get_output()来访问转换后的数据。对于大型系统,我们建议将tica对象本身传递到后续阶段,例如聚类,以避免将所有转换后的数据加载到内存中。
我们注意到,该投影产生了确定的高密度集群,这些集群最有可能被确定为可转移盆地。让我们看看其中一条轨迹,以及它在前四个TICA成分空间中的样子。我们可以看到,TICA分量很好地解决了慢速转换的离散跳跃。因此,转移性在这个投影中被很好地描述了出来。
Discretization
现在,TICA 坐标将使用 -means 算法聚类为多个离散状态。-means 算法需要所需数量的聚类作为输入。轨迹通过调用cluster.dtrajs自动分配给集群中心。
⚠️ 先验地不清楚聚类中心的最佳数量k是多少。这在很大程度上取决于我们数据的分布和我们使用的维度数量。
在下文中,我们将使用不同数量的聚类中心估计未经验证的马尔可夫模型,并使用 VAMP-2 分数(使用交叉验证)作为启发式方法。这种方法要求我们猜测 MSM 滞后时间,我们将其设置为 TICA 滞后时间5 步(或0.5 ns)。由于聚类算法是随机的,因此我们在每个聚类中心数上进行多轮离散化。
我们发现 VAMP-2 分数在75状态已经饱和。我们将使用此数字进行进一步分析。如上所述,分数是使用未经验证的 MSM 生成的,这意味着上面的图实际上只是一个启发式的。除了获得最佳分数之外,我们还希望获得一个描述物理上有趣状态的模型。因此,状态的数量k通常在模型检查后重新调整。
这些状态在低维TICA子空间中分布良好。
MSM estimation and validation
Implied timescales
实线对应最大似然 MSM 的 ITS。置信区间用阴影区域表示;它们包含贝叶斯 MSM 生成的 95% 的样本。样本平均值用虚线表示。 隐含时间尺度迅速收敛。超过 0.5 ns 以上,最慢过程的隐含时标在误差范围内保持不变。因此,我们选择滞后时间为 5 步(0.5 ns)来建立马尔可夫模型。作为快速检查,我们打印了活动集中的状态和计数分数。 请注意 msm 对象与 tica 对象的相似性。两者都是估算器实例,包含了估算的所有相关信息以及用于验证和进一步分析的方法。 为了跟踪我们的轨迹时间步长,可以传递一个包含轨迹时间步长单位的 dt_traj 关键字参数。
Chapman-Kolmogorov test
该模型通过Chapman-Kolmogorov检验进行验证。它比较了Chapman-Kolmogorov方程的右侧和左侧
P(τ)是过渡矩阵,滞后时间 τ. PyEMMA 会在滞后时间 kτ 自动估算出新的 MSM 过渡矩阵,并通过 P(τ) 传播原始过渡矩阵。自动估算出一个新的 MSM 过渡矩阵,并以 k-的幂次传播原始过渡矩阵。最高 k 可以使用 msm.cktest() 的 mlags 关键字参数进行调整。 由于我们只能检测少量(宏观)状态的结果,因此我们使用隐含时标图作为启发式来估算需要检测的可迁移状态的数量。我们可以解决 4 慢过程,滞后时间可达 2.5ns。由于Chapman-Kolmogorov检验涉及到更高滞后时间的估计,我们将尝试捕捉那些选择 5可迁移状态。
假设数据中有 5 数据中的亚态就能通过C-P检验。
MSM spectral analysis
从 MSM 对象 可以得到各种属性。我们首先对隐含时标进行频谱分析。
我们将继续分析静态分布和在前两个 TICA 坐标上计算出的自由能。静态分布 π 存储在 msm.pi 或(别名)msm.stationary_distribution 中。我们使用 MSM 中的静态概率对轨迹帧重新加权(由 msm.trajectory_weights() 返回),从而计算自由能分布。
与最慢过程(最大隐含时间尺度)相对应的特征向量包含了在哪些时间尺度上发生了哪些构型变化的信息。我们通过检查投影到两个第一个 TICA 坐标上的前四个特征函数的值来分析最慢过程。由于第一个右特征向量对应的是静止过程(平衡),因此它恒定为 1。
MSM 的特征向量包含正在发生的构象变化信息,受相应的隐含时标支配。具体来说,特征向量的最小值和最大值分量表明了一个过程之间的状态转换概率。这种交换过程的松弛时间尺度正是隐含时间尺度。
由于特征向量是根据其特征值进行内部排序的,因此上述直观图描述了隐含时标图中最慢的四个过程。我们可以看到,最慢的过程确实发生在 TICA 投影中的密集星团之间。
PCCA & TPT
Perron cluster cluster analysis
Note: We will assign the integer numbers 1... nstates
to PCCA++ metastable states. 由于 PyEMMA 是用 Python 编写的,它的内部索引是从 0 开始的。 因此,代码单元格中的数字与绘图标签和标记文本中的数字相差-1。
PCCA++ 算法计算所谓的成员关系,即每个微状态属于给定宏状态的概率。换句话说,PCCA++ 将微观状态模糊赋值给宏观状态,并将其编码在成员关系中。我们可以直观地看到在前两个TICA 维度上的 5 个成员分布如下:
正如我们所看到的,成员概率与上述自由能图谱的盆地大致吻合。
在某些情况下,将这些分布转化为清晰的分配可能会很有用。这可以通过求取每个微观状态与宏观状态的成员概率的 argmax 来计算。它们包含在 中。让我们看看这在前两个 TICA 预测中是什么样子的。
不出所料,PCCA++ 很好地在前两个 TICA 部分中分离了我们的状态空间。
此时,我们通常希望研究已识别的可迁移结构对应于哪些分子结构。我们会为每个宏态生成一些有代表性的结构样本,并将其存储在轨迹文件中,以便进行目测。下面的单元会将轨迹文件写入硬盘。这些文件可通过外部软件包加载和分析。
此外,我们还可以使用 NGLView 将该笔记本中的结构可视化。为此,我们需要提供一个自定义函数来定义分子的表示方法:
与将轨迹保存到磁盘类似,我们现在用 对象创建一个列表,其中包含我们的可变结构样本。这些对象通过 NGLView 可视化显示如下:
这种粗粒度的动态表示法更适合人类解释。不过,与传统的 MSM 一样,我们仍然可以计算出一些有趣的特性。我们从静态分布开始,它编码了各状态的自由能。这可以通过对粗粒度状态 的所有贡献求和来实现:
了解了 PCCA++ 的亚稳态,我们还可以提取它们之间的平均首次通过时间(MFPT):
在接下来的章节中,我们将清楚地看到,亚稳态1可以通过实验与其他状态区分开来。我们可以利用贝叶斯样本提取从(进入)任何其他状态进入(离开)该状态的 MFPT,如下所示:
从状态 1 到任何其他状态的 MFPT 与其他方向相比都非常短,也就是说,这个状态的生命周期相当短。
Transition path theory
亚状态之间的通量可按如下方法计算和粗粒化。例如,我们计算态 2 和态 4 之间的通量。
投影到 TICA 前两个维度上的committor可以通过填充等高线图显示出来:
We find that the committor is constant within the metastable sets defined above. Transition regions can be identified by committor values ≈0.5 .
Computing experimental observables
在彻底构建、验证和分析了我们的 MSM 之后,我们可能想采取下一步,将我们的模型与实验数据进行比较。PyEMMA 可以计算静态和动态实验观测值;下面我们将给出一些这方面的例子。我们将利用 MDTraj mcgibbon-15 提供的一些外部库函数。
深入的理论描述及其在各种数据中的应用可参见以下参考资料: - OLSON-17 - NOE-11 - OLSON-16 - LINDNER-13
PyEMMA 计算所有实验观测值的方法依赖于我们对 MSM 中每个马尔可夫状态或轨迹中每个帧的观测值。计算这些量取决于相关实验,可能需要特定领域的知识,或涉及耗时的计算。在这里,我们将在以下单元中预先计算这些实验观测值。
首先,我们从每个马尔可夫状态中抽取20个有代表性的构型。请注意,20 个代表性构型并不是一个通用数字:一个特定的观测指标可能需要更多的代表性配置才能收敛。
现在,我们使用 MDTraj 反向计算两个实验观测值,每个采样构型的溶剂可及表面积(SASA)和回旋半径,并在马尔可夫状态上平均每个观测值。每个平均值都对应于我们想要预测的宏观实验观测值的马尔可夫状态proxy。
Radius of gyration
由于我们已经估算出贝叶斯 MSM,因此还可以用标准偏差或置信区间来计算我们对观测值预测的不确定性。为此,我们使用了 sample_std 和 sample_conf 方法:
因此,我们的模型对回转半径的预测非常有把握。但是,这并不能保证它的准确性,即与实验测量结果一致。如果我们缺乏与实验的定量一致性,我们可以使用增强马尔可夫模型(AMM)程序估算出最能平衡实验数据和模拟数据的 MSM。
Trp-flourescene auto-correlation
色氨酸荧光的波动可通过光谱技术进行测量。这些波动主要取决于色氨酸残基的溶剂可及表面积(SASA)。在上文中,我们使用 Shrake-Rupley 算法预先计算了 SASA,并在此展示了投影到前两个 TICA 维度上的 SASA:
至于上文考虑的静态期望(系综平均值),我们可以使用预先计算的 SASA 向量,用 MSM 方法计算 trypotophan flourescene 的自相关函数:
注意 y-轴上的刻度:考虑到实验的不确定性,这个振幅可能太小,无法在实验中测量。
然而,利用更先进的实验装置,如停止流动、T-跳跃、P-跳跃等,我们可以在非平衡初始条件下准备我们的集合。
比方说,我们可以通过实验将一个样品制备成仅处于亚稳态 。 在这种情况下,初始条件将由亚稳状态 , 的亚稳分布给出。 使用 PyEMMA的方法,我们可以模拟从这种非平衡初始条件回到平衡状态的弛豫过程:
这个信号比我们从上述平衡时的自相关性中得到的信号要强得多!
如果我们计算每个亚稳态的平均观测值,并将其与系综平均值进行比较,我们就能知道哪种初始分布会给我们带来最强的信号。我们将对这些值进行比较,并在下文中报告它们的绝对差异:
请注意,将我们的系统准备在亚态 将给我们带来最强烈的信号,其标志是一个亚态下的观测值与全局系综平均值之间最大的绝对差值。不过,请注意,可能还有其他初始条件会给我们带来更强的信号。
利用如上方法,我们可以想象如何利用 MSM 设计实验来帮助验证和测试我们的模型。
Hidden Markov models
另一种方法是使用隐马尔可夫模型(HMM)noe-15。HMM 对所谓的隐藏状态之间的动态进行建模,我们从 PCCA++ 发现的可变状态出发。由于我们不假定集群中心空间的马尔可夫性,因此估算不易出现离散化误差。此外,它还提供了一种自然的粗粒度,可将其划分为给定数量的隐藏状态,从而产生一种方法来生成一个封闭形式的可变动态马尔可夫模型。
Assembling manuscript figures
在下文中,我们将使用本笔记本的结果绘制图表。
This is Figure 3 (a,b,c,d) which sketches the system and coordinates part:
Next is Figure 4 (a,b) which shows estimation and validation:
Figure 5 (a,b,c,d) highlights the basic analysis part using map plots:
Figure 6 visualizes the → committor:
And, finally, Figure 7 (a,b) depicts the Trp-1 autocorrelation:
后续
从多肽到蛋白,构建更大的体系的MSM模型并进行分析...