©️ Copyright 2024 @ Authors
作者:
陈思安 📨
Piloteye 📨
日期:2024-07-23
共享协议:本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。
代码说明:本作品代码主要来源于Bohrium平台助手Bohr,商务合作、使用联系和反馈:piloteye@dp.tech。
快速开始:点击上方的 开始连接 按钮,选择 bohrium-notebook:2023-04-07镜像,任意配置机型即可开始。
主要内容翻译自 10.48550/arXiv.2407.06152
部分文字内容来源于公众号文章 深势科技推出Uni-ELF多级表示学习框架,解锁电解质配方设计的未来
在当今电池技术飞速发展的时代,电解质的设计和工程成为了推动锂电池技术进步的关键因素。然而现有的分子设计和配方优化方案往往没有形成有效的计算-实验闭环。一方面,电解液的配方设计需要平衡多个维度的体相性质指标,单纯依赖实验测试或仿真筛选都难以快速准确的进行寻优。另一方面,电解液的配方优化最终是依赖电芯器件的性能表现来进行评估,领域内始终缺乏一个连接配方组成到最终电芯性能指标的有效模型。
针对这两个问题,深势科技研究团队创新性地开发了 Uni-ELF 通用电解质配方设计框架。通过分子与配方阶段的预训练,Uni-ELF 在预测分子性质(如熔点、沸点、可合成性)和配方性质(如电导、库仑效率)方面显著优于现有的先进方法 。我们期待这一创新框架在自动化 AI 驱动的电解质设计和工程领域中发挥关键作用,助力下一代高性能电池技术的突破。
1. 研究背景
锂基可充电电池是现代能源存储技术的基石,具有高能量密度、快速充电能力和长寿命的卓越潜力。电解液作为电极间的离子导体和电子绝缘体,需在极端化学条件下保持稳定,其中电解液与电池中其他组件的界面起着至关重要的作用。随着我们进入对电解液要求更高的高能量密度电池时代,尤其是对于高电压正极材料和高能量密度负极材料如锂金属,电解液的设计和工程成为主要挑战。目前基于碳酸乙烯酯(EC)的电解液系统越来越不适应这些下一代能源存储解决方案。因此,下一代电池的材料和化学突破关键在于掌握电解液设计。
电解液的研究和开发面临两个主要挑战:创新分子设计和调整电解液配方。这些挑战源于需要微调电解液的导电性、溶解性、稳定性以及与电极材料的兼容性,以满足严格的性能标准。与药物设计等其他领域不同,电解液配方层面的设计尤其关键,这涉及到为锂盐、溶剂和功能性添加剂的混合比例提供建议和预测。这些不同组分之间的相互作用可以显著影响电池的能量密度、循环寿命和整体性能。分子空间的多样性进一步加剧了潜在候选物的挑战和混合可能性的丰富性,尤其是在多组分系统中。
依赖试错的方法缺乏快速发展电解液系统所需的效率。在过去几十年中,计算方法如密度泛函理论(DFT)和分子动力学的进步,使得在电子和原子层面上解析动态行为成为可能,从而通过统计力学推导出宏观属性。然而,由于电池内部的复杂性,特别是在多尺度层面上,这阻碍了我们对其机制的全面理解,难以开发出高效且具有预测能力的模拟器,并最终实现合理的设计方案。
另一方面,数据驱动的方案,如定量结构-性质关系,已经发展起来,其中分子表示是通过特征工程获得的。手动设计特征或描述符需要广泛的领域知识,并且在面对大规模和高维问题时往往处于不利地位。此外,信息数据的稀缺性使得数据驱动模型的可转移性不确定。深度学习技术的快速发展,特别是分子表示学习和预训练-微调范式,已经缓解了这个问题。在这些方法中,Uni-Mol框架适当地结合了分子的三维信息,在化学和材料科学领域取得了广泛成功,包括小有机分子、有机发光二极管和金属有机框架,主要关注单个分子与其性质之间的关系。然而,在配方层面缺乏类似的方法,现有的尝试主要基于传统的回归方法和常规机器学习模型,如随机森林和XGBoost。
在这项研究中,我们介绍了通用电解液配方(Uni-ELF)框架,它通过多层次预训练方案在预测电解液属性和设计电解液配方方面表现出色:在分子层面,它使用Uni-Mol模型重建三维分子结构;而在混合物层面,它预测从分子动力学模拟派生的统计结构属性,如径向分布函数。系统的实验表明,经过预训练后,Uni-ELF在广泛的任务范围内超越了现有的最先进(SOTA)方法,准确预测了分子和混合物层面的关键属性。预计Uni-ELF的性能将通过整合物理驱动建模和利用通过自主实验获得的高质量数据进一步提高。我们认为,Uni-ELF不仅代表了一种创新的方法,统一了不同层面电解液的表示学习任务,而且也是工业规模智能电池设计的及时有效的工具。
2. Uni-ELF框架设计:多层次表征学习
在 Uni-ELF 方案中,通过两阶段预训练来实现电解质的多级表示学习:在分子层面上,利用 Uni-Mol 模型重建三维分子结构;在混合物层面上,从分子动力学模拟中预测统计结构性质(例如径向分布函数)。 这种全面的预训练使 Uni-ELF 能够捕捉复杂的分子和混合物级别的信息,从而显著提升其预测能力。有关模型的详细信息,请参考图1。
为了提高预测能力,配方模型应该整合特定的归纳偏差。认识到实体的特征不仅由其内在属性决定,还由其与其他实体的相互作用决定,模型必须区分不同上下文中相同的分子种类。此外,它应该保持分子输入序列的排列不变性,确保无论输入顺序如何,输出都保持一致。
为了实现这些目标,我们设计了采用变换器编码器架构的Uni-ELF主干,如图1(b2, c)所示。在配方层面,模型处理按其摩尔比加权的分子表示,细化了单个分子种类及其相互作用的表示。然后根据它们的摩尔比对这些细化的表示进行聚合。对于涉及环境温度的任务,我们引入了一个利用高斯核的温度嵌入块。这个块通过一组具有指定均值和标准差的均匀分布的高斯基函数对温度值进行编码。
模型进行预训练以预测溶液结构,从而学习配方表示。鉴于实验数据的稀缺性,我们通过物理建模补充这一点,为迁移学习提供额外的结构数据来源。在Uni-ELF框架内,分子动力学模拟生成了大量溶液粒子轨迹数据。这些轨迹在统计上被平均,以提取溶液的结构特征。具体来说,径向分布函数(RDFs)提供了粒子在给定距离处有邻居的密度概率,揭示了溶液的精细结构。分子对的RDFs(详见补充信息)特别适合在变换器编码器中使用对表示进行边缘级任务,因此被选择为预训练任务的数据。
在预训练期间,Uni-ELF接收的不仅是分子种类及其摩尔比,还有一系列径向距离值。这些径向距离值使用高斯核进行嵌入。模型保持分子种类的成对表示,利用分子间RDF的固有对称性。具体来说,它将矩阵元素的注意力表示和相加,形成成对表示。然后将这个总和表示与嵌入的径向距离值连接起来,以预测分子对在给定径向距离处的RDF 。
在预测RDFs时,模型在最终测试集上实现了0.06的均方根误差(RMSE)。如图2所示,预测的和真实的RDFs在测试集中的强烈一致性,包括LiPF6/PC/EMC体系,强调了Uni-ELF模型在预训练期间的准确性。这种在再现配方结构信息方面的高水平准确性表明,这些学习到的表示有望转移到下游属性预测任务中。
3. Uni-ELF预测表现
3.1 电解液分子性质预测
研究团队首先利用 Uni-ELF 的分子表示能力来预测对电解质设计至关重要的特性。如图3所示,对于熔点、沸点、密度、蒸气压、折射率等基础物性评估以及分子可合成性的预测任务上,Uni-ELF 显示出比最先进的构效关系预测方法更优越的性能。这显示了 Uni-ELF 框架在广阔的化学空间中识别潜在新型电解液分子的潜力。
具体而言,我们首先利用 Uni-ELF 的分子表示能力来预测电解质设计中的关键特性。如图3所示,Uni-ELF 与最先进的方法相比表现出色。对于熔点预测,它实现了 R² 0.857 和 RMSE 34.31°C,超过了之前的基准 R² 0.830 和 RMSE 36.88°C。在沸点和蒸汽压的预测方面,Uni-ELF 超越了 OPERA 模型,沸点的 R² 为 0.975 和 RMSE 为 13.49°C,蒸汽压的 R² 为 0.951 和 RMSE 为 0.79 Log mm/Hg。此外,它在预测介电常数、折射率和密度方面也超过了 QSPR 模型,R² 值分别为 0.966、0.982 和 0.992,相应的 RMSE 分别为 2.70、0.082 和 0.025 g/cm³26、25、23 。这些结果强调了表征学习在预测分子特性方面优于传统 QSPR 方法。
为了进一步探索该模型识别有前景的电解质分子的能力,我们评估了其在分子可合成性预测方面的性能。预测新分子的可合成性是一项具有挑战性的任务,通常取决于化学家的直觉和经验。Lee 等人从 QM9中整理了一个包含 126,405 个条目的数据集,以评估分子可合成性。如果 QM9 分子在 PubChem或 eMolecules数据库中列出,他们就将其归类为可合成的,而未列出的分子则被假定为不可合成的。在这个任务中,我们的模型实现了 0.965 的曲线下面积 (AUC),超过了之前最好的 0.955。虽然这些数据库中没有某种分子并不一定表示不可合成,但它为判断合成的相对难易程度提供了有价值的见解。通过将电解质所需的条件(例如宽液体范围和锂盐的溶解度)与熔点、沸点、介电常数和可合成性的训练模型相结合,我们的方法为评估虚拟生成的分子作为电解质的潜在适用性和合成可行性提供了有力的参考。
3.2 电解液配方性能预测
为了验证模型对于配方性能预测的能力,研究团队选择了两个具有代表性的数据集并进行了必要的清洗,其预测目标分别是锂金属负极电池库仑效率(CE)与电解液电导率。在所有任务中,性能表现出一致的趋势:通过预训练的 Uni-ELF 模型取得了最佳结果,其次是未预训练的 Uni-ELF 模型,再然后是 Uni-Mol 指纹、Morgan 指纹,最后是常用于配方设计的 one-hot 编码方案。这说明从分子到配方层面的多层预训练框架能够捕捉混合溶液结构与相互作用的关系并具有较好的迁移性,并最终提升对于电池性能预测的能力。
具体来说,我们审查并修正了原始来源的两个数据集:一个是锂金属阳极电池的库仑效率 (CE) ,另一个是电解质电导率。对于库仑效率数据集,我们删除了一个比率重复但测量方法和值不同的条目,并纠正了一些比率和分子信息中的错误。这得到了一个由 149 个对数库仑效率 (LCE,定义为−log(1−CE))。对于电导率数据集,同样纠正了错误,并过滤掉聚合物以专注于液体电解质。最终的电导率数据集在不同温度下整理而成,包含 2,588 个条目。
两个数据集都以 7:3 的比例分为训练集和测试集。此外,为了评估模型预测新型配方系统的能力,我们对电导率数据集采用了额外的分组方法。在这种方法中,将包含相同分子种类的配方系统的数据分组,然后根据这些组随机分为训练集和测试集。我们在训练过程中使用了五重交叉验证来增强模型的稳健性。最终模型是每次训练的五个模型的集合,其性能指标来自平均测试集预测。
我们建立了几种在分子和配方水平上构建配方指纹的基本方法,并利用 XGBoost 进行回归预测。这些方法包括:对数据集中的所有分子类型进行独热编码,其中配方指纹仅包含分子种类和比例信息,而没有任何分子或溶液结构细节;用于编码分子结构的 Morgan 指纹;以及来自 Uni-Mol 预训练模型的 Uni-Mol指纹,它们不会动态调整特征。为了提高电解质场景中的预测准确性,我们将配方指纹分为溶剂和盐组分。具体而言,分子或离子的指纹按其摩尔比加权以生成相应部分的指纹,然后将它们连接起来形成完整的配方指纹。此外,对于电导率数据集,温度作为一维特征纳入配方指纹中。
表1总结了各种分子表示方案在不同任务上的表现。值得注意的是,所有讨论的方案都明显优于 Kim 等人最近的研究成果。在所有任务中,我们观察到一致的性能趋势:预训练的 Uni-ELF 模型取得最佳效果,其次是未预训练的 Uni-ELF 模型,然后是 Uni-Mol 指纹、Morgan 指纹,最后是独热嵌入。例如,在 LCE 数据集上,预训练的 Uni-ELF 模型实现了 0.184 的 RMSE,与未预训练的 Uni-ELF 模型(RMSE 为 0.215)相比,误差降低了约 14%。同样,对于电导率数据集,与未预训练的 Uni-ELF 模型相比,预训练的 Uni-ELF 模型实现了 0.50 mS/cm(随机分割)和 2.15 mS/cm(组分割)的 RMSE,分别将误差降低了约 6% 和 13%。
这些性能结果与直观预期的一致性显而易见。独热嵌入是一种简单的数值表示,没有结构信息,因此表现最差。捕捉一些分子级特征的摩根指纹表现出适度的改善。Uni-Mol 指纹包含更丰富的分子结构,进一步提高了性能。非预训练的 Uni-ELF 模型比使用 XGBoost 的 Uni-Mol 指纹的结果更出色,凸显了基于 Transformer 的 Uni-ELF 架构的有效性。最后,预训练的 Uni-ELF 模型结合了更丰富的配方级结构信息,在所有任务中都取得了最佳性能。
如图4所示,Uni-ELF 预测与实验结果之间的一致性显而易见。具体而言,图4 (c) 显示,虽然分组可能会引入更多偏差(因为某些测试数据属于训练数据中不存在的组),但预测仍然保持一致的趋势。这证明了 Uni-ELF 模型在处理多样化数据集方面的稳健性,以及即使在具有挑战性的条件下也能很好地推广的能力。
总之,预先训练的 Uni-ELF 模型为该领域的预测准确性设定了新的基准,证明了捕获全面的分子和配方级信息对于在下游任务中获得卓越性能至关重要。
4. 应用示例:FAN分子的重发现
为展示 Uni-ELF 在分子和配方设计中的巨大潜力,研究团队选取了应用 Uni-ELF 重新发现氟乙腈(FAN)体系的例子。FAN 是一种由 Lu 等人在《自然》杂志上最近报道的高导电性溶剂。
如图5所示,首先,研究团队利用专家知识来限制分子搜索空间。例如专注于含有氰基和氟基的分子,并将搜索范围限制在少于八个重原子的分子,利用图论生成了数千个可能的分子。接下来,研究团队利用 Uni-ELF 来预测这些分子的性质。对于分子构成的电解液配方性质,Uni-ELF 预测了每个分子在不同浓度下与不同锂盐配对时的离子导率。根据预测的熔沸点和分析可合成性,研究团队应用基本的专家启发式方法,筛除不合适的候选分子,对于剩下的分子按预测的导电性进行排序。值得注意的是,如图5(c)所示,尽管训练数据中没有包含 FAN 的信息,但这种零样本预测流程仍然将 FAN 识别为最佳候选,这表明了 Uni-ELF 的稳健性和准确性。在配方性质方面,研究团队在预测的最高导电性浓度点和感兴趣浓度范围的边界点上进行了少量样本微调,模型随后生成了与实验数据高度匹配的导电性-浓度曲线。此外,仅凭一个室温数据点,模型还能够推断出系统在低温下的高导电性能。
这个例子展示了一个在最小专家干预下的完整设计循环,专家根据化学知识和设计目标定义功能基团和筛选标准,其余过程则由 Uni-ELF 自动完成。这突显了 Uni-ELF 在简化和提升分子和配方设计过程中的巨大潜力。
此外,Uni-ELF 框架的应用场景还可扩展应用于其他需要配方级别预测或生成的领域,如化工品(涂层/燃油等)、日化品(洗护/美妆等)与药剂等领域。我们相信,通过进一步的优化和验证,Uni-ELF 将对多个科学和工程领域产生深远的影响。
5. Uni-ELF使用:Uni-ELF in Piloteye®
随着 AI for Science 新范式的发展,利用人工智能等新技术突破电解液研发的难点已成为重要趋势。目前基于 Uni-ELF 框架的电解液分子与配方设计模块功能已经上线至深势科技研发的电池设计智能研发平台 Piloteye®,其涵盖了分子生成
、分子物性预测
、分子氧化还原性质预测
、电解液物性预测
以及配方性质预测
五个功能模块,并提供了友好直观的操作界面。
进入Uni-ELF配方性质预测界面
自定义上传案例:LiPF6-EC-DEC
文献中报道LiPF6-EC-DEC体系电导率,我们使用uni-finder平台提取了相关数据(如下表),由于文献中仅给出体积摩尔浓度,我们使用Piloteye的MD功能计算了相应浓度下的电解液密度
通过电解液密度,由体积摩尔分数换算为了摩尔分数
点击自定义上传,下载csv示例文件。
可以使用excel、WPS等表格编辑工具打开csv文件,也可直接文本编辑器打开。
按照Uni-ELF格式要求,将上述电解液配方表示形式由“体积摩尔浓度+质量比”换算为了“摩尔分数”。需特别注意的是,认为盐类在溶液中处于解离状态,各种离子按单独物质种类计算摩尔分数。例如上述配方中,物质的量为1 mol的LiPF6在计算摩尔分数时,需按照1 mol Li+和1 mol PF6-计入物质的量总和。
转换完成的配方如下图所示:
上传配方,提交任务
点击“本地上传”按钮,上传已编辑好的csv文件。上传完成后,点击“提交任务”。
提交任务后,在弹窗点击“查看详情”,可跳转到任务页面查看任务进度。
查看结果
如中途退出,可从Bohrium侧边栏 -- 任务 -- App任务可查看提交的预测任务
预测结果如下:
与文献结果相比,模型正确预测了电导率随浓度变化的趋势,电导值均出现在预测值+-3sigma的范围内。