Machine learning for high-entropy alloys: Progress, Chanllenges and Oppoortunities
吉林大学 TDOS课题组 阎锦 10月
这篇Notebook基于一篇review与自己学习机器学习的想法作为补充,浏览review原文请点击这里 [原文链接]
文章主体结构:
· 指出对高熵合金理论建模的挑战,说明机器学习方法是怎样从微观和宏观角度来帮助解决这些问题的
· 回顾用于高熵合金的机器学习基本方法与模型,列举一些应用说明使用机器学习方法的好处
· 对比用于高熵合金的不同机器学习方法的优缺点,概括机器学习方法带来的挑战和机遇
1.高熵合金
高熵合金的概念
高熵合金(High-Entropy Alloys, HEAs)是由多种金属元素混合得到的一种单向随机固溶体。由于其具有高的构型熵而被命名,高构型熵也被认为是其可以稳定存在的原因(但后被证明构型熵的作用没有开始时猜想的那么重要)。
研究高熵合金的原因(我们为什么对其感兴趣?)
- 优异的力学性能
- 形变机制与化学的有序/无序有关,通过调节有序度可以改变其力学性能
- 多种多样非均相的微结构,由于HEAs由多种元素构成,为调制其成分带来了更多的自由度
对高熵合金理论建模存在的困难
① 难以构建经验的原子相互作用模型
主要因为HEAs存在大量的化学相互作用,由n个组分组成的系统在m个位点上的相互作用与下式成比例:
比如五种元素构成的HEA,只考虑四个配位壳层的成对相互作用就已经有之多。
② 第一性原理模拟的困难
使用DFT计算费时且昂贵:由于HEAs具有 a)非化学计量,b)复杂的有序-无序表现,c)复杂的微结构,d)庞大的位错核心结构等特点,使得DFT计算需要使用很大的超胞(一般超过1000个原子)。
比如250个原子组成的CuZn合金超胞做第一性原理的Monte Carlo模拟需要600000个DFT计算的自洽能量。
③ 传统的试错方法太过费时
在研究具体问题,比如相变形成规则、强化模型以及延展性判据时,需要探索巨大的构型空间,成本极高。
用于高熵合金的机器学习的优点
- 模拟超过百万个原子的体系时有接近DFT的精度
- 在研究高熵合金时既可用于由结构到性质构建构效关系生成原子模拟的拟合势函数或直接预测物理性质的模型又可用于由性质到结构的材料设计
生成用于原子尺度的模拟的机器学习势有助于理解HEAs为何具有优异的力学性能。比如由复杂的有序度、缺陷和微结构引起的力学性质要求精确到纳米尺度的模拟。
使用机器学习训练材料性质的预测模型可以预测HEAs结构与性质之间复杂的、非线性的关系,而这是通过人的观察无法做到的。 机器学习用于材料设计的模型,可以预测HEAs的成分,指导实验合成。比如,高熵合金一般由5到13种元素组成,假设只有13种元素可以形成高熵合金,在只考虑等摩尔比时都能形成种HEA体系!
2.用于HEA体系的机器学习流程
使用机器学习方法研究HEAs主要由6个步骤构成:
①确定目标——我们使用机器学习方法是为了实现哪个具体的应用
比如生成机器学习势来加速模拟、预测材料的物理性质、提取隐藏的物理机制亦或者是设计材料的成分与结构。
②确定使用的算法
比如我们可以选择神经网络(NN)、支持向量机(SVM)、高斯过程(GP)以及分类与回归树(CART)等等。
③数据集的准备
数据可以由我们自己准备,一个优秀的数据集应该是均匀的、足够大的、有代表性的。这里的均匀(homogeneous)是指,计算DFT能量时应该使用一组相同的参数,比如使用相同的交换-关联泛函、相同的平面波截断能、相同的k点网格密度等,这样做的好处是不同数据之间的能量差异可以真实地反映原子构型的影响。有代表性是指,被选中的数据点均匀的分布在构型空间内,这种代表性对于一个好的代理模型来说很重要,因为对于机器学习算法来说插值比外推更为可靠。当然,实际的数据准备过程中应充分考虑不同元素或材料的差异,为不同的材料设置更适合该体系的参数,使其符合客观事实,得出更准确的结果。
此外也可以借助一些优秀的数据库,实验数据的数据库比如Pauling File project和Materials experiment and Analysis Database(MEAD),此外还有一些计算所得的数据库,如Materials Project和Open Quantum Mechanics Database(OQMD)等。
无论如何DFT能量的计算都是昂贵的,在希望增加数据时可以使用某种方法,比如主动学习(Active Learning)或生成式对抗网络(GAN)。在主动学习时,一种策略是当某一数据点进行MC模拟时所预测的能量在初始数据集的范围以外,重新进行进行一次DFT能量计算。另一种策略是在MD模拟中,基于轨迹的迭代采样算法在构型空间内的某一重要区域采样,当某一轨迹被频繁遍历时,将其作为新的数据点加入数据集。而在GAN的训练过程中,生成式的模型试图产生与训练数据类似的假数据,识别模型尝试辨别数据的真伪,这通常可以发现一些潜在的重要变量。
比较有趣的一个问题是某一构型的一些局部能量可否代替该构型的总能量用于拟合过程?
我们都知道ML模型是渴求数据的,这样做的一个明显优点就是数据点的数目可以很好的扩张,尤其对于HEAs而言(为了表现随机构型因此使用很大的超胞)。然而,这种方法的问题是临近原子的局部能量是高度相关的,例如,假设两个相邻原子之间发生电荷转移,则一个原子能量的升高必将导致另一个原子的能量降低,但总能量的变化对于单个原子能量变化而言是很小的。
④模型训练
机器学习算法从训练集的特征中学习,也就是将特征作为机器学习训练过程中的输入,比如在机器学习的回归问题中,将特征作为输入(解释变量,即自变量)来构建与模型输出的预测结果(作为响应变量,即因变量)之间的最佳关系。我们一般称特征为描述符,比如在HEAs的相变预测中,普遍使用的描述符有原子数目与尺寸、混合焓、混合熵、电负性和价电子浓度等。为了避免遗漏某个重要特征,一般需要一个足够大的“特征池”,但是这个大的特征的集合会引起冗余和维数灾难,因此,特征选择是重要的。特征选择可以降低模型的复杂度并且防止过拟合。这时有人会想到比较原始的方法——使用不同的特征的集合来训练模型,最终选择性能最好的模型对应的一组特征,其实LASSO正则化可以起到特征选择的作用,该方法通过LASSO函数中的正则项对模型进行惩罚——将某个特征的参数设置为0,来起到特征选择的作用。
当选定一个机器学习算法和数据集后,最终模型好坏完全取决于最优的模型参数,训练的过程就是模型参数的更新,参数的更新过程是通过最小化损失函数实现的。基于机器学习模型的损失函数优化可以通过不同的算法实现,比如简单的线性回归、牛顿法、随机梯度下降(Stochastic gradient descent, SGD)以及Adam优化器。
⑤模型选择
模型选择是为了找到在给定问题和数据集上表现最好的模型。
首先要确定一组候选模型,可以采用同一算法不同配置,也可以采用不同算法。
然后,将原始数据集划分为训练集、验证集和测试集,训练集用于模型的训练,验证集用于选择最佳模型和超参数、测试集用于最终模型的性能评估。
接下来尝试通过不同超参数的组合来训练和验证模型。超参数是在训练模型之前事先设定好的一组参数,比如在使用神经网络训练时预先设置的学习率、正则化参数、网络的层数等。超参数的选择可以划分为两大范畴,第一种是基于信息准则,比如贝叶斯信息准则(Bayesian Information Criteria, BIC),第二种则是在数据集的划分上下功夫,比如留出样本法,从数据集中分出与训练集互斥的训练集或者交叉验证。常见的超参数优化方法有网格搜索、随机搜索等,用于超参数优化的算法有基因算法、基于梯度的优化和贝叶斯优化器等。
使用训练集对每个候选模型进行训练,并在验证集上评估模型的性能,根据评估指标的结果,选择性能最好的模型。
⑥结果分析
在完成模型的选择后,使用测试集对最终选定的模型进行评估,以获得对模型在真实环境中的性能评估。我们应该选择适当的评估指标来衡量模型在验证集或者交叉验证中的性能,比如在分类问题中的ROC曲线下的面积(Area Under the ROC Curve, AUC)查准率、查全率等以及回归问题中的均方根误差(RMSE)、决定因子等。
用于HEA体系的机器学习训练流程如图:
3.机器学习模型
根据我们所研究问题的不同,可以获得两种不同的机器学习模型:
- 原子相互作用模型(Atomic Interaction Models, AIM)
- 体相性质预测模型(Bulk Property Models, BPM)
AIM与BPM从不同的时间尺度和长度尺度来解决材料科学中的问题。AIM基于第一性原理计算的思路,只不过与DFT计算中对亚原子尺度的电子和原子核的考虑不同,AIM的输入是不同原子的排布。与AIM相比,BPM具有更好的可转移性。好的AIM可以对材料的许多物理量进行估值,比如,形成能、弹性常数、堆垛层错能以及声子谱等,而BPM的主要优点是可以直接预测目标物理性质。
原子相互作用模型
对AIM的一个基本要求是它与体系的尺寸应该是无关的,也就是说从小尺寸系统中训练所得的模型是可用于调查更大的系统的。得到AIM的目的是构建原子环境与总能量之间的关系(也就是以原子环境为解释变量,以能量作为响应变量拟合出的势函数):
其中表示第i个原子的环境,其中包含了原子种类与第i个原子的位置,而表示在截断半径内的周围原子,是长程静电项,只与化学上的浓度有关,与原子排布无关。由于在训练模型时的输入是以原子环境而非原子构型为描述符,因此我们需要构建的势从构型到总能量的映射缩减到从局部环境到总能量的映射。要特别注意的是,当我们以表现原子的局部环境的几何描述符作为输入时,需要保持其平移、旋转和置换的不变性,这种保留基本对称操作的表示可以表现原子环境的高保真度。
相互作用势是描述势能随原子位置变化的函数,对于分子动力学模拟极为重要。比较著名的经验势函数有伦纳德-琼斯势(Lennard-Jones potential),镶嵌原子方法(Embedded-Atom Method, EAM)等。那么与传统的经验势函数相比,机器学习势具有哪些特点呢?
1.机器学习势灵活而非固定的函数形式,可以系统地改变其精度。2.机器学习势以数据作为驱动,由训练、验证、测试过程组成,使用的数据集也是通过第一性原理计算得到的。因此,机器学习势用于大的尺度模拟的同时又具有DFT计算的精度,仅用几个参数就可以处理对于经验势来说过于复杂的的系统。非常知名的四个机器学习势有神经网络势(Neural Network Potential, NNP),高斯近似势(Gaussian Approximation Potential, GAP),谱邻域分析势(Spectral Neighbor Analysis Potential, SNAP)和矩张量势(Moment Tensor Potential, MTP)。
此外还有一些有效的硬晶格哈密顿量的构建,在该晶格模型中将原子置于固定的晶格位点上,原子位置未弛豫,总能量由簇的相互作用展开:
其中是系统中许多可能构型的其中一个,是簇的关联函数,该关联函数取决于簇的类型(点、对、三原子簇)、簇的维度和原子种类,是簇的关联系数,叫做有效簇相互作用(Effective Cluster Interactions, ECIs)。ECIs可以通过不同的方法计算,比如簇展开(Cluster Expansion, CE)和低阶势(Low Rank Potential, LRP)。簇展开通过拟合被选中构型的DFT能量计算ECIs,低阶势通过矩张量势中的低阶张量作为展开基组。
如图给出了原子相互作用的机器学习模型及其应用:
训练好的原子间相互作用模型用于加速基于DFT方法的原子模拟,原子模拟可以分为三类:MC、MD以及混合MC/MD模拟。Monte-Carlo模拟原则上覆盖了整个相空间,这个特点在研究化学短程有序度(Chemical Short-Range Order, CSRO )和不同温度时的相变很有用,但MC模拟的主要限制是无法描述非平衡态的动力学过程,比如在应力下的原子移动。分子动力学模拟比较善于研究原子的运动,但是由于模拟的时间尺度受限,一般只能模拟相空间中的一小部分。混合MC/MD模拟在MD模拟中引入MC模拟的swap步骤以增加相空间中的遍历,但是这种应用虽然集中了MC模拟和MD模拟的优点,也不可避免地引入了一些短板,不加以注意将引发结果的错误。
下表简单列举机器学习在加速原子模拟方面的应用(具体出处请看原文参考文献):
合金材料 | 方法 | 物理量 |
---|---|---|
MoNbTaW | LRP+MC | 相变 |
VCoNi | LRP+MC | 相变 |
AlNiTiV | LRP+MC | 相变 |
NiCoFeCr | LRP+MC | 相变 |
MoNbTaW、MoNbTaWV、MoNbTaWTi | Bayesian CE+MC | 相变 |
MoNbTaWV | GAP+MC/MD | 缺陷,聚集 |
CoFeNi | MTP+MD | 局部晶格畸变+化学短程有序度 |
TiZrHfTa | MTP+MD | 相变,弹性常数 |
VZrNiHfTi | HDNNP+MD | 熔化结构,径向分布函数 |
MoNbTaWV | SNAP+MC/MD | 位错,归一化堆垛层错能,Peierls应力,应力-应变曲线 |
MoNbTaW | MTP+MC/MD | 位错移动中的化学短程有序度 |
MoNbTa | MTP+MD | 不稳定的堆垛层错能 |
Al-Cu | HDNNP+MD | 归一化的堆垛层错能 |
Fe | GAP+MD | 位错,归一化堆垛层错能,Peierls应力 |
Mo,Nb,Ta,W | SNAP+MD | 归一化堆垛层错能,Peierls应力 |
物理性质预测模型
在对高熵合金体系的研究中BPM主要用于:
- 预测HEAs相形成:固溶体像、金属间化合物相、非晶相、混合相
- 预测HEAs晶体结构:如BCC、FCC、HCP
- 预测HEAs的力学性质
机器学习用于宏观性质的预测如下图:
下表格给出了机器学习预测HEAs相变的应用(预测力学性质的表格见原文):
方法 | 目标 | 数据集&性能 | 时间(年) |
---|---|---|---|
GP | SS formation | AUC=0.97,1252 data | 2020 |
GP | SS formation | >300 data | 2017 |
KNN,SVM,NN | Phase | 74.3% accuracy(NN), 401 data | 2019 |
NN | Phase | over 80% accuracy, 118 data | 2018 |
SVM | Phase | over 90% accuracy, 322 data | 2019 |
DNN + GAN | Phase | 93.17% accuracy, 989 data + GAN augmented data | 2021 |
Model selection with Genetic Algorithm | Phase | 88.7% accuracy for solid solution formation and 91.3% for crystal structure | 2020 |
Gredient-boosting | Phase and Young's modulus | 61% accuracy for phase, 0.1% to 42% error for Young's modulus, 329 data | 2020 |
Grendient-boosted DTs | Phase | 96.41% for predict single-phase solution, 1807 data | 2022 |
Random Forest | Phase | 100 training accuracy, 134 data | 2020 |
NN | Phase | Pearson's R = 0.983, 321 data | 2020 |
4.挑战与机遇
挑战
- 模型的置信水平
要知道模型何时会给出准确的预测结果,何时不会,不然轻易相信模型的预测结果是有风险的,比如模型受到对抗性攻击时。 - 训练模型时要理解问题的基本物理机制
比如材料中原子的排列具有多种对称性,原子的移动遵循物理规律,因此在高维的特征空间中只有个别几个点或线可以反映真实的材料体系。 - 获取高质量的数据集
我们从数据库中获取的模拟数据以及实验数据是不同的课题组在不同条件下的测量结果,在将这些数据融入一个数据集时要仔细甄别。此外,无论是模拟数据还是实验数据的获取都是费时的,这也导致了数据集的尺寸总是不足够大,特别对于研究设计空间特别大的HEAs体系,因此构建高品质的数据库是非常必要的。
另外,比较需要注意的,在大多数文献中仅仅报道了成功的案例,而一些失败的结果可能由于作者认为其他人不感兴趣而被忽视了,但在机器学习方法中失败的结果也是重要的,这些负面的结果对于数据的平衡是有价值的。
机遇
- 不确定性量化方法的发展
在机器学习中,由于输入数据可能存在的噪声、数据不完整、不确定等问题使模型的预测结果也带有一定的不确定性。因此对模型的预测结果和模型本身的不确定性进行度量和评估是重要的,即不确定性量化。不确定性量化通常在模型性能评估之后进行,因为它需要依赖模型的预测结果。不确定性量化可以帮助我们理解模型的置信度、可靠性以及对未见样本的泛化能力,比较常见的方法有:1.置信度区间(Confidence Interval),对于回归问题,可以使用置信度区间量化模型对于预测结果的置信程度,置信度区间表示预测结果的范围,通常使用置信度水平(如95%置信度)来确定区间的宽度。2.预测分布(Predictive Distribution),对于概率模型,可以通过预测分布(可以是高斯分布、多项式分布等,表示每个预测结构的可能性)来量化模型对每个预测结果的不确定性。3.蒙特-卡洛采样(Monte Carlo Sampling),通过对模型进行多次采样,得到多个预测结果,通过这些结果的变化评估模型的预测方差或计算预测分布来量化不确定性。4.不确定性估计网络(Uncertainty Estimation Network),一些特定的神经网络结构,如贝叶斯神经网络或dropout网络,可用于评估模型的不确定性。 - 端到端的(end to end)描述符构建
比如图卷积神经网络使用图结构数据来表现体系中原子的排列,通过自动编码器将图像数据的特征转化为节点(比如每个节点代表一个原子)和边(比如每条边代表一个化学键),通过原子节点与周围原子或键的卷积更新该节点的权重,之后产生与输入图像尺寸结构相同的输出图像。 - 用于逆向材料设计的机器学习方法
之所以叫做逆向是因为不同于我们研究已知材料的性质不同,是一种由目标性质到材料结构、成分的逆向过程。由于这种目标性质是多种因素共同作用的结果,如果训练时使用的特征不充分,则不同相关因素的组合都可以得到相同的性质,由于这种信息流的不对等和缺少一定的约束,材料的设计是一项艰巨的任务。 - 自动分析实验图像
机器学习在材料科学中的另一项有前景的应用是自动分析使用XRD、TEM、SEM等技术产生的图像。产生这种应用的主要动机是增强分析的有效性和客观性,避免一些认为的错误和主观认知。