

超导体临界温度预测
©️ Copyright 2024 @ Authors
作者:陈乐天 📨
日期:2024-05-14
共享协议:本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。
快速开始:你可以点击界面上方蓝色按钮 开始连接 ,选择 Basic image : `bohrium-notebook:2023-04-07
` 及`
c2_m4_cpu`节点配置. 稍等片刻即可运行。
背景介绍
超导体是那些在低于某一特定温度(称为临界温度)时电阻突然降至零的材料。这种材料的发现和研究对于科学和工程领域都极为重要,因为它们在能源传输、磁体技术以及各种高科技应用中有着潜在的革命性应用。
竞赛目的
本次比赛的目标是通过机器学习模型来预测超导材料的临界温度。准确的预测不仅可以加深我们对物质超导性质的理解,还可以指导实验科学家在新材料的研发过程中做出更有信息的决策,具有重大的科研和实际应用价值。
数据集
本赛题使用的数据集来自真实数据,包含了 个超导体样本,每个样本详细记录了其化学配方,我们给出了其中 个数据的实测的临界温度,其他数据作为测试集数据。参赛者将基于这些数据构建模型,预测超导体的临界温度。
训练集数据:superconductor-train.csv
测试集数据(无标签):superconductor-test-no-label.csv
评分使用的镜像
ai4s-cup:0.3
本文提供了一个Baseline模型,旨在引导参赛选手在此基础上使用其他的算法,并且探索特征工程、模型调整和参数优化等策略。
1. 数据探索与准备
1.1 读取数据
训练数据集包含超过 种超导材料的特性,包括化学组成、原子特性和历史测量的临界温度值等。每种材料的特性都来自详细的实验测量和计算机模拟。
Total number of data points: 17010 -------------------------------------------------------------------------------- ele-a1 ele-a2 ele-a3 ele-a4 ele-a5 ele-a6 ele-a7 ele-a8 ele-a9 \ 0 0.000000 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.000000 1 0.000000 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.000000 2 0.000000 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.000000 3 0.000000 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.695904 4 0.467728 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.000000 ele-a10 ... ele-a78 ele-a79 ele-a80 ele-a81 ele-a82 ele-a83 \ 0 0.0 ... 0.0 0.0 0.0 0.0 0.0 0.0 1 0.0 ... 0.0 0.0 0.0 0.0 0.0 0.0 2 0.0 ... 0.0 0.0 0.0 0.0 0.0 0.0 3 0.0 ... 0.0 0.0 0.0 0.0 0.0 0.0 4 0.0 ... 0.0 0.0 0.0 0.0 0.0 0.0 ele-a84 ele-a85 ele-a86 y 0 0.0 0.0 0.0 6.325695 1 0.0 0.0 0.0 122.718485 2 0.0 0.0 0.0 78.565131 3 0.0 0.0 0.0 75.908341 4 0.0 0.0 0.0 5.060556 [5 rows x 87 columns]
- 数据统计
统计一下目标变量(临界温度)的数据分布。
1.2 数据可视化
对数据进行初步的可视化,了解各特征之间的关系。
相关系数矩阵热图显示,作为数据特征的 种元素内几乎没有强相关性的元素,其中空白的行列表示该所有的材料中元素值都不含有该元素。
1.3 划分数据集
划分特征与标签
- 查看一下特征与标签的数据大小
((17010, 86), (17010,))
划分训练集与验证集
由于我们只有完整的训练集数据,因此可将用于训练的数据集再次分割成两部分:训练集和验证集。
- 训练集(Training set):用于模型训练,通过这部分数据,模型学习识别数据中的模式和关系。
- 验证集(Validation set):用于模型验证,这部分数据帮助评估模型的性能,检查模型是否存在过拟合,及其在未见数据上的表现如何。
划分的目的
- 评估模型泛化能力:通过在未参与训练的数据上测试模型,可以评估其泛化到新数据的能力。
- 调整模型参数:使用验证集可以安全地调整模型的参数(如学习率、层数、节点数等),而不会泄露测试集的信息。
- 防止过拟合:如果仅用训练集进行训练和测试,模型可能会过度学习训练数据中的细节和噪声,即过拟合。验证集提供了一种检测过拟合的手段。
2. 建模与评估
2.1 建模部分
本文选择最基础的线性回归模型作为Baseline。
LinearRegression()
2.2 模型评估
计算验证集的平均绝对误差(MAE)和决定系数(R²),以评估模型的性能。
MAE for valid data: 20.243692641314233 R2 for valid data: 0.5715900226661013
MAE for training data: 19.77167207210659 R2 for training data: 0.6142714090038274
根据上图中对训练集与验证集数据的预测结果可知,线性模型的表达能力很一般。原始数据的临界温度范围在 ~ 之间,而线性模型预测的临界温度部分已经低于 (显然不符合物理规律)。
3. 预测与结果提交
3.1 对测试集进行预测
加载没有标签的测试数据,使用训练好的模型进行预测。
3.2 保存预测结果
请确保!!!保存测试集数据预测的结果的文件名为submission.csv
,列名为test_pre_y
。
运行下面的代码即可按照格式要求保存提交文件。







