空间站广场

论文

Notebooks

比赛

课程

Apps

我的主页

我的Notebooks

我的论文库

我的足迹

我的工作空间

任务

节点

文件

数据集

镜像

项目

数据库

公开

AI4S Cup学习赛：特征工程与可视化

AI4S Cup-Getting Started

hyb

发布于 2024-02-01

推荐镜像 :Basic Image:bohrium-notebook:2023-04-07

推荐机型 :c2_m4_cpu

AI4S Cup学习赛：特征工程与可视化

特征工程基本流程

1. 数据收集和理解

2.数据处理：

3.特征提取

4. 特征选择

5.特征变换

6.模型优化

AI4S Cup学习赛：特征工程与可视化

©️ 特征工程是什么？
是将原始数据转化成更好的表达问题本质的特征，来减少过拟合，并提高模型的性能、泛化能力。简单来说特征工程就是将复杂的原始数据转换为更具代表性的信息，以便机器学习算法更准确地进行预测和决策。
eg：以生理性别判别为例，如果以身高为数据特征我们很难得出结果，如果以喉结为特征数据能判断大多数情况，但以染色体的种类为特征时，就能判定所有情况，没有误差。可见特征的选取对模型的性能表现十分重要。
©️ 快速开始：点击上方的开始连接 按钮，选择 bohrium-notebook:2023-04-07镜像及任意CPU节点配置，稍等片刻即可运行。

代码

文本

特征工程基本流程

1. 数据收集和理解

数据集包括训练集和测试集，每个数据集包含两列：分子的 SMILES 表达式和分类标签（1表示CNS药物，0表示非CNS药物）。SMILES（Simplified molecular input line entry system），是一种简化分子线性输入规范。

2.数据处理：

对于缺失值：删除、替换、插补；
对于异常值的处理有：
- 删除含有异常值的观测（样本少时直接删除会造成样本量不足，改变分布）；
- 当作缺失值（利用现有的信息，对其当缺失值填补）；
- 平均值修正（用前后两个观测值的均值修正该异常值）、不处理。
- 在进行异常值处理时要先复习异常值出现的可能原因，再判断异常值是否应该舍弃。

3.特征提取

特征提取涉及将原始数据转化为机器学习算法可用的特征。SMILES是一种常见的分子表示方式，从SMILES中提取有关分子结构和性质的特征是一项关键任务。在这次赛题中可能包括：

分子属性描述符（Molecular Property Descriptors）：计算分子的物化性质，如分子质量、极性、溶解度等。
分子指纹（Molecular Fingerprints）：将分子结构表示为二进制或整数向量，以描述分子的拓扑结构和子结构。
分子的三维结构信息：如果可用，可以提取分子的三维坐标信息，以描述其立体结构。针对本题，它是QSAR的一个典型应用场景。QSAR（Quantitative Structure-Activity Relationship）是一种常用的计算化学方法，主要用于研究分子结构与生物活性之间的定量关系，通常用于设计、筛选和优化药物分子。我们可以查询到QSAR早期时就提出，分子的生物活性主要与疏水效（logP）、立体效应等分子性质有关，我们可以把这些性质称作分子描述符，因为使用1D-QSAR特征比较有利于进行特征工程的说明，故在以下代码中仅采用1D-QSAR特征。
而在本文开头的代码中则将三个维度的共11037个QSAR特征用随机森林做了特征选择，PCA降维，然后创建一个分类器，进行训练。
我们可以使用RDKit库把分子结构转化为众多特征，先提取两个看看效果：

代码

文本

[2]

! pip install lightgbm numpy pandas rdkit scikit-learn #在终端用pip下载lightgbm库、numpy库、pandas库、rdkit库、scikit-learn库

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple

Requirement already satisfied: lightgbm in /opt/conda/lib/python3.8/site-packages (2.2.3)

Requirement already satisfied: numpy in /opt/conda/lib/python3.8/site-packages (1.22.4)

Requirement already satisfied: pandas in /opt/conda/lib/python3.8/site-packages (1.5.3)

Collecting rdkit

  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/6b/34/4141c233ca567d949c616154b99f632d35efe4f423aae1cc5b9a6b6e6621/rdkit-2023.9.1-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (30.5 MB)

     ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 30.5/30.5 MB 21.6 MB/s eta 0:00:0000:0100:01

Requirement already satisfied: scikit-learn in /opt/conda/lib/python3.8/site-packages (1.0.2)

Requirement already satisfied: scipy in /opt/conda/lib/python3.8/site-packages (from lightgbm) (1.7.3)

Requirement already satisfied: python-dateutil>=2.8.1 in /opt/conda/lib/python3.8/site-packages (from pandas) (2.8.2)

Requirement already satisfied: pytz>=2020.1 in /opt/conda/lib/python3.8/site-packages (from pandas) (2022.7)

Requirement already satisfied: Pillow in /opt/conda/lib/python3.8/site-packages (from rdkit) (9.4.0)

Requirement already satisfied: joblib>=0.11 in /opt/conda/lib/python3.8/site-packages (from scikit-learn) (1.2.0)

Requirement already satisfied: threadpoolctl>=2.0.0 in /opt/conda/lib/python3.8/site-packages (from scikit-learn) (3.1.0)

Requirement already satisfied: six>=1.5 in /opt/conda/lib/python3.8/site-packages (from python-dateutil>=2.8.1->pandas) (1.16.0)

Installing collected packages: rdkit

Successfully installed rdkit-2023.9.1

WARNING: Running pip as the 'root' user can result in broken permissions and conflicting behaviour with the system package manager. It is recommended to use a virtual environment instead: https://pip.pypa.io/warnings/venv

代码

文本

[3]

import os

import pandas as pd

from rdkit import Chem

from rdkit.Chem import Descriptors

from sklearn.linear_model import LogisticRegression

from sklearn.model_selection import train_test_split

from sklearn.ensemble import RandomForestClassifier

from sklearn.metrics import accuracy_score

from sklearn.metrics import fbeta_score

# 读取数据

DIR_PATH = "/data"

data = pd.read_csv(os.path.join(DIR_PATH, 'mol_train.csv'))

features = data['SMILES']

labels = data['TARGET']

# 定义计算1D-QSAR特征的函数

def calculate_1dqsar_repr(smiles):

mol = Chem.MolFromSmiles(smiles)

mol_weight = Descriptors.MolWt(mol) # 计算分子的分子量

log_p = Descriptors.MolLogP(mol) # 计算分子的LogP值

return [mol_weight, log_p]

# 初始化特征列表

all_features = []

# 计算1D-QSAR特征

for smiles in features:

features_repr = calculate_1dqsar_repr(smiles) # 调用计算函数获取特征

all_features.append(features_repr) # 将特征添加到特征列表

# 将特征数据和标签数据拆分为训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(all_features, labels, test_size=0.2, random_state=42)

# 采用逻辑回归模型

clf = LogisticRegression()

# 在训练集上拟合模型

clf.fit(X_train, y_train)

# 在测试集上进行预测

y_pred = clf.predict(X_test)

# 计算f2-score

f2_score = fbeta_score(y_test, y_pred, beta=2)

print("F2-score: ", f2_score)

# 运行结果：F2-score:0.29126213592233013

F2-score:  0.29126213592233013

代码

文本

结果并不理想，那我们尝试多加几个题目提示的特征，会发生什么变化呢？

代码

文本

[10]

import os

import pandas as pd

from rdkit import Chem

from rdkit.Chem import Descriptors

from sklearn.linear_model import LogisticRegression

from sklearn.model_selection import train_test_split

from sklearn.ensemble import RandomForestClassifier

from sklearn.metrics import accuracy_score

from sklearn.metrics import fbeta_score

# 读取数据

data = pd.read_csv(os.path.join(DIR_PATH, 'mol_train.csv'))

features = data['SMILES']

labels = data['TARGET']

# 定义计算1D-QSAR特征的函数

def calculate_1dqsar_repr(smiles):

mol = Chem.MolFromSmiles(smiles)

mol_weight = Descriptors.MolWt(mol) # 计算分子的分子量

log_p = Descriptors.MolLogP(mol) # 计算分子的LogP值

tpsa = Descriptors.TPSA(mol) # 计算分子的表面积极性

num_polar_hydrogens = Descriptors.NumHAcceptors(mol)#计算极性氢原子数量

# 计算N原子的数量

count_n = 0

for atom in mol.GetAtoms():

atomic_num = atom.GetAtomicNum()

if atomic_num == 7: # 7代表氮原子的原子序数

count_n += 1

return [mol_weight,log_p,count_n,num_polar_hydrogens,tpsa,]

# 初始化特征列表

all_features = []

# 计算1D-QSAR特征

for smiles in features:

features_repr = calculate_1dqsar_repr(smiles) # 调用计算函数获取特征

all_features.append(features_repr) # 将特征添加到特征列表

# 将特征数据和标签数据拆分为训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(all_features, labels, test_size=0.2, random_state=42)

# 采用逻辑回归模型

clf = LogisticRegression()

# 在训练集上拟合模型

clf.fit(X_train, y_train)

# 在测试集上进行预测

y_pred = clf.predict(X_test)

# 计算f2-score

f2_score = fbeta_score(y_test, y_pred, beta=2)

print("F2-score: ", f2_score)

# 运行结果：F2-score:0.6651376146788991

F2-score:  0.6651376146788991

代码

文本

效果显而易见，从0.2912多提升到了0.6651多，那说明是不是特征越多越好呢？接下来我们多加一些特征看看：

代码

文本

[11]

import os

import pandas as pd

from rdkit import Chem

from rdkit.Chem import Descriptors

from sklearn.linear_model import LogisticRegression

from sklearn.model_selection import train_test_split

from sklearn.ensemble import RandomForestClassifier

from sklearn.metrics import accuracy_score

from sklearn.metrics import fbeta_score

# 读取数据

data = pd.read_csv(os.path.join(DIR_PATH, 'mol_train.csv'))

features = data['SMILES']

labels = data['TARGET']

# 定义计算1D-QSAR特征的函数

def calculate_1dqsar_repr(smiles):

mol = Chem.MolFromSmiles(smiles)

mol_weight = Descriptors.MolWt(mol) # 计算分子的分子量

log_p = Descriptors.MolLogP(mol) # 计算分子的LogP值

num_h_donors = Descriptors.NumHDonors(mol) # 计算分子中的氢键供体数量

num_h_acceptors = Descriptors.NumHAcceptors(mol) # 计算分子中的氢键受体数量

tpsa = Descriptors.TPSA(mol) # 计算分子的表面积极性

num_rotatable_bonds = Descriptors.NumRotatableBonds(mol) # 计算分子中的可旋转键数量

num_aromatic_rings = Descriptors.NumAromaticRings(mol) # 计算分子中的芳香环数量

num_aliphatic_rings = Descriptors.NumAliphaticRings(mol) # 计算分子中的脂环数量

num_saturated_rings = Descriptors.NumSaturatedRings(mol) # 计算分子中的饱和环数量

num_heteroatoms = Descriptors.NumHeteroatoms(mol) # 计算分子中的杂原子数量

num_valence_electrons = Descriptors.NumValenceElectrons(mol) # 计算分子中的价电子数量

num_radical_electrons = Descriptors.NumRadicalElectrons(mol) # 计算分子中的自由基电子数量

num_polar_hydrogens = Descriptors.NumHAcceptors(mol)#计算极性氢原子数量

# 计算N原子的数量

count_n = 0

for atom in mol.GetAtoms():

atomic_num = atom.GetAtomicNum()

if atomic_num == 7: # 7代表氮原子的原子序数

count_n += 1

return [mol_weight, log_p, num_h_donors, num_h_acceptors, tpsa, num_rotatable_bonds, num_aromatic_rings, num_aliphatic_rings, num_saturated_rings, num_heteroatoms, num_valence_electrons, num_radical_electrons,count_n,num_polar_hydrogens]

# 初始化特征列表

all_features = []

# 计算1D-QSAR特征

for smiles in features:

features_repr = calculate_1dqsar_repr(smiles) # 调用计算函数获取特征

all_features.append(features_repr) # 将特征添加到特征列表

# 将特征数据和标签数据拆分为训练集和测试集

X_train, X_test, y_train, y_test = train_test_split(all_features, labels, test_size=0.2, random_state=42)

# 采用逻辑回归模型

clf = LogisticRegression()

# 在训练集上拟合模型

clf.fit(X_train, y_train)

# 在测试集上进行预测

y_pred = clf.predict(X_test)

# 计算f2-score

f2_score = fbeta_score(y_test, y_pred, beta=2)

print("F2-score: ", f2_score)

#运行结果：F2-score:0.7589285714285713

F2-score:  0.7589285714285713
/opt/conda/lib/python3.8/site-packages/sklearn/linear_model/_logistic.py:814: ConvergenceWarning: lbfgs failed to converge (status=1):

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.



Increase the number of iterations (max_iter) or scale the data as shown in:

    https://scikit-learn.org/stable/modules/preprocessing.html

Please also refer to the documentation for alternative solver options:

    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression

  n_iter_i = _check_optimize_result(

代码

文本

可见虽然分数有多提升，但大量特征的加入并不会让分数呈现较大提升。
此时我们删掉两个特征看看结果又是怎么样的呢？

代码

文本

[12]

import os

import pandas as pd

from rdkit import Chem

from rdkit.Chem import Descriptors

from sklearn.linear_model import LogisticRegression

from sklearn.model_selection import train_test_split

from sklearn.ensemble import RandomForestClassifier

from sklearn.metrics import accuracy_score

from sklearn.metrics import fbeta_score

# 读取数据

data = pd.read_csv(os.path.join(DIR_PATH, 'mol_train.csv'))

features = data['SMILES']

labels = data['TARGET']

# 定义计算1D-QSAR特征的函数

def calculate_1dqsar_repr(smiles):

mol = Chem.MolFromSmiles(smiles)

mol_weight = Descriptors.MolWt(mol) # 计算分子的分子量

log_p = Descriptors.MolLogP(mol) # 计算分子的LogP值

#num_h_donors = Descriptors.NumHDonors(mol) # 计算分子中的氢键供体数量

#num_h_acceptors = Descriptors.NumHAcceptors(mol) # 计算分子中的氢键受体数量