快速开始 DeePMD-kit|训练甲烷深度势能分子动力学模型
这是一篇「深度势能」分子动力学 DeePMD-kit 快速上手指南,你可以通过本文快速了解 DeePMD-kit 运行的范式周期并应用于你的项目中
深度势能(Deep Potential)是机器学习和物理原理的碰撞,它展现了下图所示的一种新的计算范式。
图|一种新的计算范式,由分子模拟(Molecular Modeling)、机器学习(Machine Learning)和高性能计算(HPC)组成。
如果你需要更深度的了解深度势能,可戳 👉 从 DFT 到 MD|超详细「深度势能」材料计算上手指南
掌握使用 DeePMD-kit 建立深度势能分子动力学模型的范式周期,并跟随完整案例学习如何应用于分子动力学任务。
- 了解 DeePMD-kit 训练所需的数据格式及运行脚本
- 训练、冻结、 压缩和测试 DeePMD-kit 模型
- 在分子动力学软件 LAMMPS 中调用 DeePMD-kit 进行计算。
阅读该教程【最多】约需 20 分钟,让我们开始吧!
在本教程中,我们将以气态甲烷分子为例,详细介绍深度势能(Deep Potential)模型的训练和应用。
DeePMD-kit 是一款基于神经网络拟合第一性原理数据得到势能模型,用于分子动力学模拟的软件。无需人工干预,其可以端对端地将用户提供的数据在数个小时内转化为深度势能模型,该模型可以与常见分子动力学模拟软件(LAMMPS,OpenMM 和 GROMACS 等)无缝衔接。
DeePMD-kit 通过高性能计算和机器学习将分子动力学极限提升了数个量级,达到了上亿原子的体系规模,同时仍保证了「从头算(ab initio)」的高精度,且模拟时间尺度较传统方法至少提高 1000 倍。相关成果获 2020 年度⾼性能计算领域最⾼奖 ACM 戈登贝尔奖,已被国内外物理、化学、材料、生物等方向上千课题组使用。
有关更详细的用法,你可以使用 DeePMD-kit的文档 文档作为完整参考。
在本案例中,Deep Potential (DP) 模型是使用 DeePMD-kit 包(v2.2.1)生成的。
让我们来查看下载的 DeePMD-kit_Tutorial 文件夹:
DeePMD-kit_Tutorial ├── 00.data ├── 01.train └── 02.lmp 3 directories, 0 files
在 DeePMD-kit_Tutorial 文件夹下有 00.data,01.train 和 02.lmp 共 3 个子文件夹。
- 00.data 文件夹用于存放训练和测试数据,
- 01.train 包含使用 DeePMD-kit 训练模型的示例脚本,
- 02.lmp 包含用于分子动力学模拟的 LAMMPS 示例脚本。
让我们首先来查看 DeePMD-kit_Tutorial/00.data 文件夹。
DeePMD-kit_Tutorial/00.data └── abacus_md 1 directory, 0 files
DeePMD-kit 的训练数据来源于第一性原理计算数据,包含原子类型、模拟晶格、原子坐标、原子力、系统能量和维里量。
在 00.data 文件夹下仅有 abacus_md 文件夹,abacus_md 文件夹是通过使用 ABACUS 进行从头算分子动力学 (ab initio Molecular Dynamics, AIMD) 获得的。本教程中我们已经为您完成了甲烷分子的从头分子动力学计算。
有关 ABACUS 的详细说明可以在其文档中找到。你也可以在从 超详细「深度势能」材料计算上手指南|章节 2 中获得帮助。
DeePMD-kit 采用压缩数据格式。所有训练数据应首先转换为此格式,然后可以在 DeePMD-kit 中使用。该数据格式在 DeePMD-kit 手册中有详细解释,可以在DeePMD-kit Github中找到。
我们提供了一个方便的工具 dpdata,可以将由 VASP、CP2K、Gaussian、Quantum-Espresso、ABACUS 和 LAMMPS 产生的数据转换为 DeePMD-kit 的压缩格式。
接下来,我们使用 dpdata 工具将 abacus_md 中的数据随机分成训练和验证数据。
# 数据包含201帧 # 训练数据包含161帧 # 验证数据包含40帧
让我们再查看一下 00.data 文件夹,其中产生了新的文件,分别是 DeePMD-kit 深度势能训练所需的训练集和验证集。
DeePMD-kit_Tutorial/00.data/ ├── abacus_md ├── training_data └── validation_data 3 directories, 0 files
DeePMD-kit_Tutorial/00.data/training_data ├── set.000 ├── type.raw └── type_map.raw 1 directory, 2 files
0 0 0 0 1
有关使用 dpdata 进行数据转换的更详细文档可以在这里找到。
{ "_comment": " model parameters", "model": { "type_map": ["H", "C"], "descriptor" :{ "type": "se_e2_a", "sel": "auto", "rcut_smth": 0.50, "rcut": 6.00, "neuron": [25, 50, 100], "resnet_dt": false, "axis_neuron": 16, "seed": 1, "_comment": " that's all" }, "fitting_net" : { "neuron": [240, 240, 240], "resnet_dt": true, "seed": 1, "_comment": " that's all" }, "_comment": " that's all" }, "learning_rate" :{ "type": "exp", "decay_steps": 50, "start_lr": 0.001, "stop_lr": 3.51e-8, "_comment": "that's all" }, "loss" :{ "type": "ener", "start_pref_e": 0.02, "limit_pref_e": 1, "start_pref_f": 1000, "limit_pref_f": 1, "start_pref_v": 0, "limit_pref_v": 0, "_comment": " that's all" }, "training" : { "training_data": { "systems": ["../00.data/training_data"], "batch_size": "auto", "_comment": "that's all" }, "validation_data":{ "systems": ["../00.data/validation_data"], "batch_size": "auto", "numb_btch": 1, "_comment": "that's all" }, "numb_steps": 10000, "seed": 10, "disp_file": "lcurve.out", "disp_freq": 200, "save_freq": 1000, "_comment": "that's all" }, "_comment": "that's all" }
"type_map": ["H", "C"],
"type": "se_e2_a",
"rcut": 6.00,
"rcut_smth": 0.50,
"sel": "auto",
"neuron": [25, 50, 100],
"resnet_dt": false,
"axis_neuron": 16,
"seed": 1,
"_comment": "that's all"
"neuron": [240, 240, 240],
"resnet_dt": true,
"seed": 1,
"_comment": "that's all"
"_comment": "that's all"'
参数 | 解释 |
type_map | 每种原子的名称 |
descriptor > type | 描述类型 |
descriptor > rcut | 截断半径 |
descriptor > rcut_smth | 平滑开始的位置 |
descriptor > sel | 切割半径内第i种原子的最大数目 |
descriptor > neuron | 嵌入神经网络的大小 |
descriptor > axis_neuron | G矩阵的子矩阵大小(嵌入矩阵) |
fitting_net > neuron | 拟合神经网络的大小 |
的参数将描述符和拟合网络的大小分别设置为[25, 50, 100]和[240, 240, 240]。本地环境中的组成部分会在从0.5到6 Å的范围内平滑地趋于零。
"learning_rate" :{
"type": "exp",
"decay_steps": 50,
"start_lr": 0.001,
"stop_lr": 3.51e-8,
"_comment": "that's all"
"loss" :{
"type": "ener",
"start_pref_e": 0.02,
"limit_pref_e": 1,
"start_pref_f": 1000,
"limit_pref_f": 1,
"start_pref_v": 0,
"limit_pref_v": 0,
"_comment": "that's all"
从 0.02 逐渐增加到 1,pref_f
从 1000 逐渐减小到 1,这意味着力项在开始时占主导地位,而能量和压力项在最后变得重要。这种策略非常有效,并减少了总的训练时间。pref_v
设置为 0,表示训练过程中不包括压力数据。起始学习率、终止学习率和衰减步数分别设置为 0.001、3.51e-8 和 50。模型训练 10000 步。
"training" : {
"training_data": {
"systems": ["../00.data/training_data"],
"batch_size": "auto",
"_comment": "that's all"
"systems": ["../00.data/validation_data/"],
"batch_size": "auto",
"numb_btch": 1,
"_comment": "that's all"
"numb_steps": 10000,
"seed": 10,
"disp_file": "lcurve.out",
"disp_freq": 200,
"save_freq": 10000,
DEEPMD INFO -----------------------------------------------------------------
DEEPMD INFO ---Summary of DataSystem: training ----------------------------------
DEEPMD INFO found 1 system(s):
DEEPMD INFO system natoms bch_sz n_bch prob pbc
DEEPMD INFO ../00.data/training_data 5 7 23 1.000 T
DEEPMD INFO -------------------------------------------------------------------------
DEEPMD INFO ---Summary of DataSystem: validation ----------------------------------
DEEPMD INFO found 1 system(s):
DEEPMD INFO system natoms bch_sz n_bch prob pbc
DEEPMD INFO ../00.data/validation_data 5 7 5 1.000 T
DEEPMD INFO -------------------------------------------------------------------------
DEEPMD INFO start training at lr 1.00e-03 (== 1.00e-03), decay_step 50, decay_rate 0.950006, final lr will be 3.51e-08
它们显示了训练和测试时间计数。在每 1000 batch 结束时,模型将保存在 Tensorflow 的 checkpoint 文件 model.ckpt
中呈现。该文件包含 8 列,从左到右依次是:
- 训练步数
- 验证损失
- 训练损失
- 能量的均方根(RMS)验证误差
- 能量的 RMS 训练误差
- 力的 RMS 验证误差
- 力的 RMS 训练误差
- 学习率
学习率是机器学习中的一个重要概念。在 DP 模型中,学习率会经历一个 从大到小指数衰减的过程。这样既能保证模型收敛的效率,也能保证模型的精度。因此在学习率的参数中,有起始学习率(start_lr)和结束学习率(end_rate) 两种。在上面的例子中,我们将起始学习率、结束学习率和学习率的衰减步长分别设置为 0.001,3.51e-8,和 50,那么模型学习率会从 0.001 开始,每 50 步降低一点,直到降低到 3.51e-8(或者训练结束)为止。
我们来看一下 lcurve.out 文件的初始与结束两行。
# step rmse_val rmse_trn rmse_e_val rmse_e_trn rmse_f_val rmse_f_trn lr 0 2.08e+01 1.83e+01 1.33e-01 1.33e-01 6.58e-01 5.79e-01 1.0e-03 9800 3.88e-02 4.06e-02 7.06e-04 6.16e-04 3.80e-02 3.97e-02 4.3e-08 10000 4.84e-02 3.64e-02 7.77e-04 4.19e-04 4.75e-02 3.58e-02 3.5e-08
它将在当前目录中输出一个名为 graph.pb 的模型文件。
到目前为止,我们就获得了一个使用 DeePMD-kit 通过高精度的从头算分子动力学数据获得的深度势能模型:DeePMD-kit_Tutorial/01.train/graph.pb
. ├── conf.lmp ├── graph.pb └── in.lammps 0 directories, 3 files
,可以发现它是一个相当标准的 LAMMPS 分子动力学模拟输入文件(关于 LAMMPS 分子动力学模拟输入文件的更多信息,可以阅读「超详细「深度势能」材料计算上手指南|章节 1」
pair_style deepmd graph.pb
pair_coeff * *
其中调用了 DeePMD 的 pair_style,提供了模型文件 graph.pb
中的 DP 模型进行计算。
在具有兼容版本的 LAMMPS 的环境中,可以通过以下命令执行深度势分子动力学模拟:
