空间站广场

论文

Notebooks

比赛

课程

Apps

我的主页

我的Notebooks

我的论文库

我的足迹

我的工作空间

任务

节点

文件

数据集

镜像

项目

数据库

公开

Uni-ELF APP Hands-on

Uni-ELF

Letian

更新于 2024-08-14

推荐镜像 :Basic Image:bohrium-notebook:2023-04-07

推荐机型 :c2_m4_cpu

1. 研究背景

2. Uni-ELF框架设计：多层次表征学习

3. Uni-ELF预测表现

3.1 电解液分子性质预测

3.2 电解液配方性能预测

4. 应用示例：FAN分子的重发现

5. Uni-ELF使用：Uni-ELF in Piloteye®

进入Uni-ELF配方性质预测界面

自定义上传案例：LiPF6-EC-DEC

上传配方，提交任务

查看结果

©️ Copyright 2024 @ Authors
作者： 陈思安 📨 Piloteye 📨
日期：2024-07-23
共享协议：本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。
代码说明：本作品代码主要来源于Bohrium平台助手Bohr，商务合作、使用联系和反馈：piloteye@dp.tech。
快速开始：点击上方的 开始连接 按钮，选择 bohrium-notebook:2023-04-07镜像，任意配置机型即可开始。

代码

文本

主要内容翻译自 10.48550/arXiv.2407.06152
部分文字内容来源于公众号文章 深势科技推出Uni-ELF多级表示学习框架，解锁电解质配方设计的未来

代码

文本

在当今电池技术飞速发展的时代，电解质的设计和工程成为了推动锂电池技术进步的关键因素。然而现有的分子设计和配方优化方案往往没有形成有效的计算-实验闭环。一方面，电解液的配方设计需要平衡多个维度的体相性质指标，单纯依赖实验测试或仿真筛选都难以快速准确的进行寻优。另一方面，电解液的配方优化最终是依赖电芯器件的性能表现来进行评估，领域内始终缺乏一个连接配方组成到最终电芯性能指标的有效模型。

针对这两个问题，深势科技研究团队创新性地开发了 Uni-ELF 通用电解质配方设计框架。通过分子与配方阶段的预训练，Uni-ELF 在预测分子性质（如熔点、沸点、可合成性）和配方性质（如电导、库仑效率）方面显著优于现有的先进方法。我们期待这一创新框架在自动化 AI 驱动的电解质设计和工程领域中发挥关键作用，助力下一代高性能电池技术的突破。

代码

文本

1. 研究背景

代码

文本

锂基可充电电池是现代能源存储技术的基石，具有高能量密度、快速充电能力和长寿命的卓越潜力。电解液作为电极间的离子导体和电子绝缘体，需在极端化学条件下保持稳定，其中电解液与电池中其他组件的界面起着至关重要的作用。随着我们进入对电解液要求更高的高能量密度电池时代，尤其是对于高电压正极材料和高能量密度负极材料如锂金属，电解液的设计和工程成为主要挑战。目前基于碳酸乙烯酯（EC）的电解液系统越来越不适应这些下一代能源存储解决方案。因此，下一代电池的材料和化学突破关键在于掌握电解液设计。

电解液的研究和开发面临两个主要挑战：创新分子设计和调整电解液配方。这些挑战源于需要微调电解液的导电性、溶解性、稳定性以及与电极材料的兼容性，以满足严格的性能标准。与药物设计等其他领域不同，电解液配方层面的设计尤其关键，这涉及到为锂盐、溶剂和功能性添加剂的混合比例提供建议和预测。这些不同组分之间的相互作用可以显著影响电池的能量密度、循环寿命和整体性能。分子空间的多样性进一步加剧了潜在候选物的挑战和混合可能性的丰富性，尤其是在多组分系统中。

依赖试错的方法缺乏快速发展电解液系统所需的效率。在过去几十年中，计算方法如密度泛函理论（DFT）和分子动力学的进步，使得在电子和原子层面上解析动态行为成为可能，从而通过统计力学推导出宏观属性。然而，由于电池内部的复杂性，特别是在多尺度层面上，这阻碍了我们对其机制的全面理解，难以开发出高效且具有预测能力的模拟器，并最终实现合理的设计方案。

另一方面，数据驱动的方案，如定量结构-性质关系，已经发展起来，其中分子表示是通过特征工程获得的。手动设计特征或描述符需要广泛的领域知识，并且在面对大规模和高维问题时往往处于不利地位。此外，信息数据的稀缺性使得数据驱动模型的可转移性不确定。深度学习技术的快速发展，特别是分子表示学习和预训练-微调范式，已经缓解了这个问题。在这些方法中，Uni-Mol框架适当地结合了分子的三维信息，在化学和材料科学领域取得了广泛成功，包括小有机分子、有机发光二极管和金属有机框架，主要关注单个分子与其性质之间的关系。然而，在配方层面缺乏类似的方法，现有的尝试主要基于传统的回归方法和常规机器学习模型，如随机森林和XGBoost。

在这项研究中，我们介绍了通用电解液配方（Uni-ELF）框架，它通过多层次预训练方案在预测电解液属性和设计电解液配方方面表现出色：在分子层面，它使用Uni-Mol模型重建三维分子结构；而在混合物层面，它预测从分子动力学模拟派生的统计结构属性，如径向分布函数。系统的实验表明，经过预训练后，Uni-ELF在广泛的任务范围内超越了现有的最先进（SOTA）方法，准确预测了分子和混合物层面的关键属性。预计Uni-ELF的性能将通过整合物理驱动建模和利用通过自主实验获得的高质量数据进一步提高。我们认为，Uni-ELF不仅代表了一种创新的方法，统一了不同层面电解液的表示学习任务，而且也是工业规模智能电池设计的及时有效的工具。

代码

文本

2. Uni-ELF框架设计：多层次表征学习

代码

文本

在 Uni-ELF 方案中，通过两阶段预训练来实现电解质的多级表示学习：在分子层面上，利用 Uni-Mol 模型重建三维分子结构；在混合物层面上，从分子动力学模拟中预测统计结构性质（例如径向分布函数）。这种全面的预训练使 Uni-ELF 能够捕捉复杂的分子和混合物级别的信息，从而显著提升其预测能力。有关模型的详细信息，请参考图1。

代码

文本

图1 电解质配方表征学习框架。a 、多层次电解质设计。在原子水平上，单个原子及其相互作用形成分子几何结构，从而创建分子级表征。在此基础上，混合物中的单个分子种类、它们的比例及其相互作用（用红线表示）创建配方级表征，然后用于预测设备级特性。b 、多层次表征学习：b1.通过自监督任务学习分子级表征，包括恢复掩蔽的原子类型和去噪原子对距离。b2 .然后将这些细化的表征与混合比一起输入到 Uni-ELF 主干中。c 、Uni-ELF 主干模型架构。Uni -ELF 模型基于变压器编码器设计，摩尔比用作分子表征的权重，并保持对表征以进行混合级预训练；对表示矩阵中的对称元素相加并与从高斯核获得的径向特征相结合，然后利用这些组合特征来预测径向分布函数（RDF），这是一项恢复混合系统结构属性的预训练任务。

代码

文本

为了提高预测能力，配方模型应该整合特定的归纳偏差。认识到实体的特征不仅由其内在属性决定，还由其与其他实体的相互作用决定，模型必须区分不同上下文中相同的分子种类。此外，它应该保持分子输入序列的排列不变性，确保无论输入顺序如何，输出都保持一致。

为了实现这些目标，我们设计了采用变换器编码器架构的Uni-ELF主干，如图1(b2, c)所示。在配方层面，模型处理按其摩尔比加权的分子表示，细化了单个分子种类及其相互作用的表示。然后根据它们的摩尔比对这些细化的表示进行聚合。对于涉及环境温度的任务，我们引入了一个利用高斯核的温度嵌入块。这个块通过一组具有指定均值和标准差的均匀分布的高斯基函数对温度值进行编码。

模型进行预训练以预测溶液结构，从而学习配方表示。鉴于实验数据的稀缺性，我们通过物理建模补充这一点，为迁移学习提供额外的结构数据来源。在Uni-ELF框架内，分子动力学模拟生成了大量溶液粒子轨迹数据。这些轨迹在统计上被平均，以提取溶液的结构特征。具体来说，径向分布函数（RDFs）提供了粒子在给定距离处有邻居的密度概率，揭示了溶液的精细结构。分子对的RDFs（详见补充信息）特别适合在变换器编码器中使用对表示进行边缘级任务，因此被选择为预训练任务的数据。

在预训练期间，Uni-ELF接收的不仅是分子种类及其摩尔比，还有一系列径向距离值。这些径向距离值使用高斯核进行嵌入。模型保持分子种类的成对表示，利用分子间RDF的固有对称性。具体来说，它将矩阵元素的注意力表示 $[i, j]$ 和 $[j, i]$ 相加，形成成对表示。然后将这个总和表示与嵌入的径向距离值连接起来，以预测分子对 $[i, j]$ 在给定径向距离 $[r]$ 处的RDF $(g_{ij} (r))$ 。

在预测RDFs时，模型在最终测试集上实现了0.06的均方根误差（RMSE）。如图2所示，预测的和真实的RDFs在测试集中的强烈一致性，包括LiPF6/PC/EMC体系，强调了Uni-ELF模型在预训练期间的准确性。这种在再现配方结构信息方面的高水平准确性表明，这些学习到的表示有望转移到下游属性预测任务中。

代码

文本

图2 预测分子成对 RDF 作为配方级预训练任务，使用摩尔比为n(Li⁺ ) : n(PF⁻₆) : n(PC) : n(EMC) = 0.12 : 0.12 : 0.54 : 0.22作为示例。这些图比较了从分子动力学 (MD) 模拟 (蓝色) 获得的真实值与 Uni-ELF 模型 (橙色) 的各种分子对的预测值：PF⁻₆、Li⁺、PC 和 EMC，包括形成下三角矩阵的所有成对组合。右侧面板显示了系统配置。预测和真实 RDF 之间的高度一致性证明了 Uni-ELF 模型在预训练期间的准确性。

代码

文本

3. Uni-ELF预测表现

代码

文本

3.1 电解液分子性质预测

研究团队首先利用 Uni-ELF 的分子表示能力来预测对电解质设计至关重要的特性。如图3所示，对于熔点、沸点、密度、蒸气压、折射率等基础物性评估以及分子可合成性的预测任务上，Uni-ELF 显示出比最先进的构效关系预测方法更优越的性能。这显示了 Uni-ELF 框架在广阔的化学空间中识别潜在新型电解液分子的潜力。

代码

文本

图3 在预测电解质设计分子特性方面的性能比较。Uni -ELF（紫色）在预测七种分子特性（熔点、沸点、蒸气压、介电常数、折射率、R² 分数上的密度和 AUC 上的可合成性）方面超越了之前报道的最先进的 (SOTA) 方法（蓝色），这些特性对于电解质的逆向分子设计至关重要。每个同心圆代表 0.05 的间隔，最外层边界对应满分 1.0。

代码

文本

具体而言，我们首先利用 Uni-ELF 的分子表示能力来预测电解质设计中的关键特性。如图3所示，Uni-ELF 与最先进的方法相比表现出色。对于熔点预测，它实现了 R² 0.857 和 RMSE 34.31°C，超过了之前的基准 R² 0.830 和 RMSE 36.88°C。在沸点和蒸汽压的预测方面，Uni-ELF 超越了 OPERA 模型，沸点的 R² 为 0.975 和 RMSE 为 13.49°C，蒸汽压的 R² 为 0.951 和 RMSE 为 0.79 Log mm/Hg。此外，它在预测介电常数、折射率和密度方面也超过了 QSPR 模型，R² 值分别为 0.966、0.982 和 0.992，相应的 RMSE 分别为 2.70、0.082 和 0.025 g/cm³26、25、23 。这些结果强调了表征学习在预测分子特性方面优于传统 QSPR 方法。

为了进一步探索该模型识别有前景的电解质分子的能力，我们评估了其在分子可合成性预测方面的性能。预测新分子的可合成性是一项具有挑战性的任务，通常取决于化学家的直觉和经验。Lee 等人从 QM9中整理了一个包含 126,405 个条目的数据集，以评估分子可合成性。如果 QM9 分子在 PubChem或 eMolecules数据库中列出，他们就将其归类为可合成的，而未列出的分子则被假定为不可合成的。在这个任务中，我们的模型实现了 0.965 的曲线下面积 (AUC)，超过了之前最好的 0.955。虽然这些数据库中没有某种分子并不一定表示不可合成，但它为判断合成的相对难易程度提供了有价值的见解。通过将电解质所需的条件（例如宽液体范围和锂盐的溶解度）与熔点、沸点、介电常数和可合成性的训练模型相结合，我们的方法为评估虚拟生成的分子作为电解质的潜在适用性和合成可行性提供了有力的参考。

代码

文本

3.2 电解液配方性能预测

为了验证模型对于配方性能预测的能力，研究团队选择了两个具有代表性的数据集并进行了必要的清洗，其预测目标分别是锂金属负极电池库仑效率（CE）与电解液电导率。在所有任务中，性能表现出一致的趋势：通过预训练的 Uni-ELF 模型取得了最佳结果，其次是未预训练的 Uni-ELF 模型，再然后是 Uni-Mol 指纹、Morgan 指纹，最后是常用于配方设计的 one-hot 编码方案。这说明从分子到配方层面的多层预训练框架能够捕捉混合溶液结构与相互作用的关系并具有较好的迁移性，并最终提升对于电池性能预测的能力。

代码

文本

表1 不同方法和配置的库仑效率和液体电解质电导率数据集的 RMSE 结果，最佳 RMSE 以粗体表示。随机分割列表示随机分为训练集和测试集的数据，而组分割列表示按包含相同分子种类集的配方系统分组的数据，并根据其组随机分为训练集和测试集。结果报告为三次独立实验的平均值，标准差用括号表示。

图4 使用 Uni-ELF 预测电解质配方特性的回归图。（a）库仑效率数据集的结果。（b、c）液体电解质电导率数据集，其中(b)代表随机分割，(c) 代表组分割。回归图显示测试集中实验值和预测值之间的奇偶性，插图显示训练集中的结果。为了说明数据分布，每个图的顶部和右侧显示核密度估计。图中的颜色渐变表示预测误差的大小

代码

文本

具体来说，我们审查并修正了原始来源的两个数据集：一个是锂金属阳极电池的库仑效率 (CE) ，另一个是电解质电导率。对于库仑效率数据集，我们删除了一个比率重复但测量方法和值不同的条目，并纠正了一些比率和分子信息中的错误。这得到了一个由 149 个对数库仑效率 (LCE，定义为−log⁡（1−CE）)。对于电导率数据集，同样纠正了错误，并过滤掉聚合物以专注于液体电解质。最终的电导率数据集在不同温度下整理而成，包含 2,588 个条目。

两个数据集都以 7:3 的比例分为训练集和测试集。此外，为了评估模型预测新型配方系统的能力，我们对电导率数据集采用了额外的分组方法。在这种方法中，将包含相同分子种类的配方系统的数据分组，然后根据这些组随机分为训练集和测试集。我们在训练过程中使用了五重交叉验证来增强模型的稳健性。最终模型是每次训练的五个模型的集合，其性能指标来自平均测试集预测。

我们建立了几种在分子和配方水平上构建配方指纹的基本方法，并利用 XGBoost 进行回归预测。这些方法包括：对数据集中的所有分子类型进行独热编码，其中配方指纹仅包含分子种类和比例信息，而没有任何分子或溶液结构细节；用于编码分子结构的 Morgan 指纹；以及来自 Uni-Mol 预训练模型的 Uni-Mol指纹，它们不会动态调整特征。为了提高电解质场景中的预测准确性，我们将配方指纹分为溶剂和盐组分。具体而言，分子或离子的指纹按其摩尔比加权以生成相应部分的指纹，然后将它们连接起来形成完整的配方指纹。此外，对于电导率数据集，温度作为一维特征纳入配方指纹中。

表1总结了各种分子表示方案在不同任务上的表现。值得注意的是，所有讨论的方案都明显优于 Kim 等人最近的研究成果。在所有任务中，我们观察到一致的性能趋势：预训练的 Uni-ELF 模型取得最佳效果，其次是未预训练的 Uni-ELF 模型，然后是 Uni-Mol 指纹、Morgan 指纹，最后是独热嵌入。例如，在 LCE 数据集上，预训练的 Uni-ELF 模型实现了 0.184 的 RMSE，与未预训练的 Uni-ELF 模型（RMSE 为 0.215）相比，误差降低了约 14%。同样，对于电导率数据集，与未预训练的 Uni-ELF 模型相比，预训练的 Uni-ELF 模型实现了 0.50 mS/cm（随机分割）和 2.15 mS/cm（组分割）的 RMSE，分别将误差降低了约 6% 和 13%。

这些性能结果与直观预期的一致性显而易见。独热嵌入是一种简单的数值表示，没有结构信息，因此表现最差。捕捉一些分子级特征的摩根指纹表现出适度的改善。Uni-Mol 指纹包含更丰富的分子结构，进一步提高了性能。非预训练的 Uni-ELF 模型比使用 XGBoost 的 Uni-Mol 指纹的结果更出色，凸显了基于 Transformer 的 Uni-ELF 架构的有效性。最后，预训练的 Uni-ELF 模型结合了更丰富的配方级结构信息，在所有任务中都取得了最佳性能。

如图4所示，Uni-ELF 预测与实验结果之间的一致性显而易见。具体而言，图4 (c) 显示，虽然分组可能会引入更多偏差（因为某些测试数据属于训练数据中不存在的组），但预测仍然保持一致的趋势。这证明了 Uni-ELF 模型在处理多样化数据集方面的稳健性，以及即使在具有挑战性的条件下也能很好地推广的能力。

总之，预先训练的 Uni-ELF 模型为该领域的预测准确性设定了新的基准，证明了捕获全面的分子和配方级信息对于在下游任务中获得卓越性能至关重要。

代码

文本

4. 应用示例：FAN分子的重发现

代码

文本

为展示 Uni-ELF 在分子和配方设计中的巨大潜力，研究团队选取了应用 Uni-ELF 重新发现氟乙腈（FAN）体系的例子。FAN 是一种由 Lu 等人在《自然》杂志上最近报道的高导电性溶剂。

如图5所示，首先，研究团队利用专家知识来限制分子搜索空间。例如专注于含有氰基和氟基的分子，并将搜索范围限制在少于八个重原子的分子，利用图论生成了数千个可能的分子。接下来，研究团队利用 Uni-ELF 来预测这些分子的性质。对于分子构成的电解液配方性质，Uni-ELF 预测了每个分子在不同浓度下与不同锂盐配对时的离子导率。根据预测的熔沸点和分析可合成性，研究团队应用基本的专家启发式方法，筛除不合适的候选分子，对于剩下的分子按预测的导电性进行排序。值得注意的是，如图5(c)所示，尽管训练数据中没有包含 FAN 的信息，但这种零样本预测流程仍然将 FAN 识别为最佳候选，这表明了 Uni-ELF 的稳健性和准确性。在配方性质方面，研究团队在预测的最高导电性浓度点和感兴趣浓度范围的边界点上进行了少量样本微调，模型随后生成了与实验数据高度匹配的导电性-浓度曲线。此外，仅凭一个室温数据点，模型还能够推断出系统在低温下的高导电性能。

这个例子展示了一个在最小专家干预下的完整设计循环，专家根据化学知识和设计目标定义功能基团和筛选标准，其余过程则由 Uni-ELF 自动完成。这突显了 Uni-ELF 在简化和提升分子和配方设计过程中的巨大潜力。

代码

文本

图5 Uni-ELF用于电解液分子与配方设计的例子

代码

文本

此外，Uni-ELF 框架的应用场景还可扩展应用于其他需要配方级别预测或生成的领域，如化工品（涂层/燃油等）、日化品（洗护/美妆等）与药剂等领域。我们相信，通过进一步的优化和验证，Uni-ELF 将对多个科学和工程领域产生深远的影响。

代码

文本

5. Uni-ELF使用：Uni-ELF in Piloteye®

代码

文本

随着 AI for Science 新范式的发展，利用人工智能等新技术突破电解液研发的难点已成为重要趋势。目前基于 Uni-ELF 框架的电解液分子与配方设计模块功能已经上线至深势科技研发的电池设计智能研发平台 Piloteye®，其涵盖了分子生成、分子物性预测、分子氧化还原性质预测、电解液物性预测以及配方性质预测五个功能模块，并提供了友好直观的操作界面。

App 地址： https://bohrium.dp.tech/apps/uni-elf

代码

文本

进入Uni-ELF配方性质预测界面

代码

文本

自定义上传案例：LiPF₆-EC-DEC

代码

文本

文献中报道LiPF₆-EC-DEC体系电导率，我们使用uni-finder平台提取了相关数据（如下表），由于文献中仅给出体积摩尔浓度，我们使用Piloteye的MD功能计算了相应浓度下的电解液密度

通过电解液密度，由体积摩尔分数换算为了摩尔分数

代码

文本

点击自定义上传，下载csv示例文件。

可以使用excel、WPS等表格编辑工具打开csv文件，也可直接文本编辑器打开。

按照Uni-ELF格式要求，将上述电解液配方表示形式由“体积摩尔浓度+质量比”换算为了“摩尔分数”。需特别注意的是，认为盐类在溶液中处于解离状态，各种离子按单独物质种类计算摩尔分数。例如上述配方中，物质的量为1 mol的LiPF₆在计算摩尔分数时，需按照1 mol Li⁺和1 mol PF₆^-计入物质的量总和。
转换完成的配方如下图所示：

代码

文本

上传配方，提交任务

代码

文本

点击“本地上传”按钮，上传已编辑好的csv文件。上传完成后，点击“提交任务”。

提交任务后，在弹窗点击“查看详情”，可跳转到任务页面查看任务进度。

代码

文本

查看结果

代码

文本

如中途退出，可从Bohrium侧边栏 -- 任务 -- App任务可查看提交的预测任务

代码

文本

预测结果如下：

与文献结果相比，模型正确预测了电导率随浓度变化的趋势，电导值均出现在预测值+-3sigma的范围内。

代码

文本

Uni-ELF

已赞3

本文被以下合集收录

电解液案例

Piloteye

更新于 2024-08-28

4 篇3 人关注