data:image/s3,"s3://crabby-images/b8342/b8342c7aee9b3a5973911fbae7afc2af094acabb" alt=""
data:image/s3,"s3://crabby-images/1470e/1470e96daa2c5e98e501582f83520720a5263e5f" alt=""
分子动力学模拟是理论化学、计算物理、分子生物学、材料科学等领域的基本研究方法,其中,对原子间势能函数的精确建模,一直是一个核心问题。深度势能(DP)等方法基于机器学习建模,实现了分子动力学模拟精度与速度的统一,在合金、半导体、电池材料、小分子等各个体系都有着广泛的应用。
然而,随着应用体系越来越复杂,在单一体系上从头生产数据、训练势函数的方式,其成本也越来越高,很大程度上阻碍了具体体系上的应用发展;另一方面,虽然有基于预训练模型的初步尝试来降低生产成本,其模型结构、生产范式迭代迅速,使用门槛也越来越高,用户也迫切需要使用更高效、自动化的势能函数生产方式,从而节省计算和操作成本。
为了更好地解决上述问题,我们推出了DP Combo APP,从机器学习操作平台(MLOps)和深度势能模型生命周期的角度,希望提供给用户一套自动化生产、评测、部署的系统。对于用户来说,可以一键使用DP系列最新模型方法和生产范式,根据不同的使用场景提供最优质的解决方案,从而加速解决具体体系的应用问题;对于开发者来说,可以让最新模型、生产范式以最快的速度上线,和用户使用无缝衔接,加速模型、产品迭代,从而进一步赋能微观模拟的上下游生态。
这篇notebook带大家体验和快速上手DP Combo APP。打开DP Combo APP的网页https://app.bohrium.dp.tech/dp-combo/ ,登陆自己的bohrium账号之后,首先可以看到一个下拉列表可以选择模式
data:image/s3,"s3://crabby-images/6f5d9/6f5d9fe57cf3e9262e30e704ced1677624c05a47" alt=""
- Train from scratch. 从头训练一个DP模型,即从已有的第一性原理标注的训练数据出发,训练一个可以直接用于DeePMD生产的模型。适用于已经有足够多的训练数据,可以得到精度满足要求的DP模型;或已有一些数据不确定够不够,尝试训一把看下精度效果。
- Finetune via training. 在DPA-2预训练模型上训练调优,获得的调优后的模型可以直接用于DeePMD生产的模型。适用于已有的数据量不足以从头训练一个DP模型,通过在预训练模型的基础上调优获得更高的精度。
- Finetune via DP-Gen. 在DPA-2预训练模型上通过DP-Gen数据生成器以迭代的方式调优,获得的调优后的模型可以直接用于DeePMD生产的模型。适用于仅有很少量的数据,通过边调优边标注的方式最小化所需的第一性原理的数据标注。
1. Train from scratch
首先要提供带标注的数据,其中训练数据必需,验证数据可选。文件需要tgz或zip格式的压缩包,数据的格式是deepmd/npy,对目录的层级无要求,应用会递归地搜索里面的体系。
data:image/s3,"s3://crabby-images/ef56d/ef56dcd5ff05ed1b5bf244257b62d7445bfe5c79" alt=""
DP-combo提供了样例数据,可以在Example Artifacts中找到
data:image/s3,"s3://crabby-images/43059/4305967e78bebec4cf44b17ac14010236aef2d37" alt=""
模型类型当前支持se_e2_a(光滑版的Deep Potential)和se_atten(DPA-1)
data:image/s3,"s3://crabby-images/1d441/1d4410dec7528131fcebfd44682f5648f568a257" alt=""
类型映射可以选择customize(自定义),或auto(自动生成)
data:image/s3,"s3://crabby-images/b6dbf/b6dbfea4e3e8a51089eb11fe7dabed70bd737a14" alt=""
其中自动生成可以选择all_elements(使用元素周期表序),或者auto_detect(从训练数据中自动检测出现的所有元素种类),类型映射影响最终得到的模型在生产时元素种类的对应关系,例如lammps输入文件中的类型顺序需要与模型的一致
data:image/s3,"s3://crabby-images/0773f/0773fa14b3237eb87276177d72cacc91d3701680" alt=""
此外提供了若干训练参数可以修改
data:image/s3,"s3://crabby-images/2385c/2385ca550bf772f31126759d53272d19079c53e1" alt=""
如果以上参数修改不满足需求,可以在Train Config栏选择Custom Options,直接修改训练json文件
data:image/s3,"s3://crabby-images/2f770/2f77019f5bfe5161ca1ba9895b12f6c662ad9006" alt=""
确认参数无误后即可点击next,最后点击submit提交,提交成功后会看到如下提示
data:image/s3,"s3://crabby-images/90297/90297e7cde0ceb77f8cfffa4ef1cdb22ffee4cc3" alt=""
可以点击Job Details跟踪任务详情。
任务进行中,可以在任务详情页底部实时查看学习曲线图
data:image/s3,"s3://crabby-images/4b456/4b456afe2242b233e8a8839c6c8d518eca990a91" alt=""
任务完成后,点击workspace中的outputs文件夹,可以获得任务的输出文件
data:image/s3,"s3://crabby-images/df2ad/df2adb608f20cd916e5b1c5e67c8b98baaf69193" alt=""
其中graph.pb是输出的DP模型
data:image/s3,"s3://crabby-images/3dd4d/3dd4db7bb2bfb56bd1f959c54db3e423e271af0c" alt=""
2. Finetune via Training
数据上传同第1部分。上传数据后,需要选择一个分支作为调优的起点,默认是随机初始化的分支,选择与训练的目标体系尽量相近的分支能使调优更容易。这里用到的预训练模型是多个体系放在一起训练出来的一个模型,这个模型有一个多体系共享的descriptor(参数量最多的地方),以及后续各个体系自己的fitting net,这里选择的分支只是选择一个fitting net,也可以随机初始化这个fitting net,descriptor用的都是同一个
data:image/s3,"s3://crabby-images/b6e59/b6e595df4d1b8b9aecf1489330b94a6f3cb66899" alt=""
然后可以调整调优的训练参数
data:image/s3,"s3://crabby-images/cc8be/cc8be8f3df00d3b5bbf9830f268338d001ec707c" alt=""
调优之后可以选择做蒸馏或不做,由于当前调优后的模型不能直接用于大规模生产,如果想获得一个能用于生产的模型,就需要做蒸馏。蒸馏的过程即使用教师模型作为标注器训练一个学生模型。蒸馏可调整的参数包括Distill Config(蒸馏的迭代过程的参数)、Train Config(学生模型的训练参数)和Lammps Config(MD采样的Lammps模板)。蒸馏完成后默认还会进行模型压缩,进一步提升模型在生产中的性能。
data:image/s3,"s3://crabby-images/e4356/e4356c1936f704a72f3883f5a4be7ececea7492f" alt=""
确认参数无误提交后首先进行模型调优,调优过程中可以在任务详情页看到类似第1部分的学习曲线图。调优结束后,若选择了做蒸馏,DP-Combo会提交一个工作流,可以在https://lbg-workflow-mlops.dp.tech/ 页面查看蒸馏工作流的进度
data:image/s3,"s3://crabby-images/419c9/419c99ed3efede603e18633c99de3dbde6810186" alt=""
蒸馏工作流基于DP-Gen2项目,可以使用DP-Gen2的命令行工具查看蒸馏状态。这个过程需要本地安装dpgen2
Bohrium username: ········ Bohrium password: ········ Bohrium project_id: ········
100%|██████████| 1/1 [00:00<00:00, 5.55it/s] # stage id_stg. iter. accu. cand. fail. lvl_f_lo lvl_f_hi # Stage 0 -------------------- 0 0 0 0.8500 0.1496 0.0004 0.1357 0.5000 0 1 1 0.8250 0.1454 0.0296 0.0722 0.5000 0 2 2 0.6658 0.1173 0.2169 0.0638 0.5000 0 3 3 0.6200 0.1092 0.2708 0.0608 0.5000 0 4 4 0.6938 0.1223 0.1838 0.0577 0.5000 0 5 5 0.6981 0.1231 0.1788 0.0543 0.5000 0 6 6 0.7058 0.1242 0.1700 0.0510 0.5000 0 7 7 0.6635 0.1169 0.2196 0.0481 0.5000 0 8 8 0.6081 0.1069 0.2850 0.0469 0.5000
整个任务结束后,点击workspace中的outputs文件夹,可以获得任务的输出文件,其中包括调优后的模型model.pt,蒸馏后的模型distilled_model.pb,压缩后的模型compressed_model.pb
data:image/s3,"s3://crabby-images/e3c0a/e3c0ac712d7def2a30aadcf8caa69ed95d9c6075" alt=""
3. Finetune via DP-Gen
数据上传和调优的参数选择同第2部分。DP-Gen可调整的参数包括DP-Gen Config(DP-Gen迭代过程的参数)、Lammps Config(MD采样的Lammps模板)、VASP Config(第一性原理计算的VASP模板)。
data:image/s3,"s3://crabby-images/842f9/842f941c6960985e0802600a1897680a15cd05da" alt=""
DP-Gen完成之后同样可以选择做蒸馏或不做,如果做蒸馏,参数的选择同第2部分。
确认参数无误提交后首先会提交一个DP-Gen工作流,可以在https://lbg-workflow-mlops.dp.tech/ 页面查看工作流的进度。同样可以使用DP-Gen2的命令行工具查看蒸馏状态,同第2部分。如果做蒸馏,整个任务结束后,点击workspace中的outputs文件夹,可以获得任务的输出文件,其中包括调优后的模型model.pt,蒸馏后的模型distilled_model.pb,压缩后的模型compressed_model.pb
data:image/s3,"s3://crabby-images/74e48/74e485d650fe26887adb38093928461bd63ce6bd" alt=""
data:image/s3,"s3://crabby-images/1470e/1470e96daa2c5e98e501582f83520720a5263e5f" alt=""
data:image/s3,"s3://crabby-images/e33f4/e33f4263ba6ec787ab62a17d51767c663d05c8a5" alt=""
data:image/s3,"s3://crabby-images/1470e/1470e96daa2c5e98e501582f83520720a5263e5f" alt=""
data:image/s3,"s3://crabby-images/995c2/995c2361cc9a159d069c9c9a0020f9e699dc5508" alt=""
data:image/s3,"s3://crabby-images/c250e/c250e21e3c34a795cd084fc15bde3e899bb41b2d" alt=""
data:image/s3,"s3://crabby-images/01f2a/01f2af4691e1c35676d8b7ec99b56ca31b5b4929" alt=""
data:image/s3,"s3://crabby-images/aabcc/aabcc8cc1fff57ad6f8e97da40db77b785135256" alt=""
jianzhifu@vip.163.com
jianzhifu@vip.163.com