

本场景场景案例采用DrugBank数据集和Tox21数据集。
DrugBank 数据集的下载方式
您可以通过以下步骤获取 DrugBank 数据集:
访问 DrugBank 官方网站:前往 DrugBank 数据库 的官方网站。
创建账户:在网站上注册一个免费账户。注册完成后,登录您的账户。
申请学术许可:如果您是学术研究人员,DrugBank 提供免费的学术许可。在登录后,前往 数据包页面,选择适合您的数据包,并按照页面提示申请学术许可。申请可能需要一些时间进行审核。
下载数据集:获得许可后,您可以在上述页面下载所需的 DrugBank 数据集。数据通常以 XML 或 TSV 格式提供,包含详细的药物信息、分子特性和相互作用数据。
解析数据:下载的数据可能需要使用特定的工具进行解析。例如,您可以使用 Python 的
ElementTree
模块来解析 XML 文件,并提取所需的信息。
请注意,DrugBank 数据的使用受其许可协议的约束。在使用数据之前,务必阅读并遵守相关的使用条款和条件。
此外,DrugBank 数据库是一个综合性的生物信息学和化学信息学资源,结合了详细的药物数据和全面的药物靶标信息。最新版本的 DrugBank 包含超过 13,000 个药物条目,包括经批准的小分子药物、生物技术药物、营养品和实验药物。每个条目包含丰富的化学、药理学和药物靶标数据,可用于药物发现和开发研究。
Downloading file from DrugBank... File downloaded successfully: drugbank_all_structures.sdf.zip Extracting the SDF file... Extraction completed. Loading and displaying the first five molecules from the SDF file... Molecule 1: - Name: - Number of Atoms: 155 - SMILES: CC[C@H](C)[C@H](NC(=O)[C@H](CCC(=O)O)NC(=O)[C@H](CCC(=O)O)NC(=O)[C@H](Cc1ccccc1)NC(=O)[C@H](CC(=O)O)NC(=O)CNC(=O)[C@H](CC(N)=O)NC(=O)CNC(=O)CNC(=O)CNC(=O)CNC(=O)[C@@H]1CCCN1C(=O)[C@H](CCCNC(=N)N)NC(=O)[C@@H]1CCCN1C(=O)[C@H](N)Cc1ccccc1)C(=O)N1CCC[C@H]1C(=O)N[C@@H](CCC(=O)O)C(=O)N[C@@H](CCC(=O)O)C(=O)N[C@@H](Cc1ccc(O)cc1)C(=O)N[C@@H](CC(C)C)C(=O)O Molecule 2: - Name: [NO NAME] - Number of Atoms: 91 - SMILES: CC(C)C[C@H](NC(=O)[C@@H](COC(C)(C)C)NC(=O)[C@H](Cc1ccc(O)cc1)NC(=O)[C@H](CO)NC(=O)[C@H](Cc1c[nH]c2ccccc12)NC(=O)[C@H](Cc1cnc[nH]1)NC(=O)[C@@H]1CCC(=O)N1)C(=O)N[C@@H](CCCN=C(N)N)C(=O)N1CCC[C@H]1C(=O)NNC(N)=O Molecule 3: - Name: - Number of Atoms: 131 - SMILES: CC(C)C[C@@H](NC(=O)CNC(=O)[C@@H](NC=O)C(C)C)C(=O)N[C@@H](C)C(=O)N[C@@H](C(=O)N[C@H](C(=O)N[C@@H](C(=O)N[C@@H](Cc1c[nH]c2ccccc12)C(=O)N[C@H](CC(C)C)C(=O)N[C@@H](Cc1c[nH]c2ccccc12)C(=O)N[C@H](CC(C)C)C(=O)N[C@@H](Cc1c[nH]c2ccccc12)C(=O)N[C@H](CC(C)C)C(=O)N[C@@H](Cc1c[nH]c2ccccc12)C(=O)NCCO)C(C)C)C(C)C)C(C)C Molecule 4: - Name: - Number of Atoms: 74 - SMILES: N=C(N)NCCC[C@@H](NC(=O)[C@@H]1CCCN1C(=O)[C@@H]1CSSCCC(=O)N[C@@H](Cc2ccc(O)cc2)C(=O)N[C@@H](Cc2ccccc2)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(N)=O)C(=O)N1)C(=O)NCC(N)=O Molecule 5: - Name: - Number of Atoms: 102 - SMILES: CC(=O)N[C@H](Cc1ccc2ccccc2c1)C(=O)N[C@H](Cc1ccc(Cl)cc1)C(=O)N[C@H](Cc1cccnc1)C(=O)N[C@@H](CO)C(=O)N[C@@H](Cc1ccc(O)cc1)C(=O)N[C@H](CCCNC(N)=O)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCCNC(=N)N)C(=O)N1CCC[C@H]1C(=O)N[C@H](C)C(N)=O
Tox21数据集的下载方式
Column names in the Tox21 dataset: ['NR-AR', 'NR-AR-LBD', 'NR-AhR', 'NR-Aromatase', 'NR-ER', 'NR-ER-LBD', 'NR-PPAR-gamma', 'SR-ARE', 'SR-ATAD5', 'SR-HSE', 'SR-MMP', 'SR-p53', 'mol_id', 'smiles']
以下是 Tox21 数据集中各列的说明:
核受体(Nuclear Receptor, NR)列 这些列描述核受体(NR)相关的毒性任务结果,测定化合物对特定核受体的活性影响。
NR-AR
:- Androgen Receptor (雄激素受体) 的活性测试结果。
- 用于评估化合物是否对雄激素受体有干扰。
NR-AR-LBD
:- Androgen Receptor Ligand Binding Domain (雄激素受体配体结合域) 的测试结果。
- 测定化合物与该受体结合的能力。
NR-AhR
:- Aryl Hydrocarbon Receptor (芳香族烃受体) 的测试结果。
- 主要与毒性和肝脏代谢相关。
NR-Aromatase
:- Aromatase (芳香化酶) 的测试结果。
- 测定化合物是否干扰芳香化酶(与激素代谢相关)。
NR-ER
:- Estrogen Receptor (雌激素受体) 的测试结果。
- 用于评估化合物是否与雌激素受体相互作用。
NR-ER-LBD
:- Estrogen Receptor Ligand Binding Domain (雌激素受体配体结合域) 的测试结果。
- 测定化合物是否能与雌激素受体结合。
NR-PPAR-gamma
:- Peroxisome Proliferator-Activated Receptor Gamma (过氧化物酶体增殖激活受体伽马) 的测试结果。
- 该受体与代谢调节、脂质代谢等有关。
应激反应(Stress Response, SR)列 这些列描述应激反应(SR)相关的毒性任务结果,测定化合物对细胞生物学过程的影响。
SR-ARE
:- Antioxidant Response Element (抗氧化应答元件) 的测试结果。
- 测定化合物是否触发细胞的抗氧化应答。
SR-ATAD5
:- ATAD5 (DNA 修复相关基因) 的测试结果。
- 用于评估化合物是否引发 DNA 损伤修复反应。
SR-HSE
:- Heat Shock Element (热冲击元件) 的测试结果。
- 测定化合物是否触发细胞热冲击蛋白的表达。
SR-MMP
:- Mitochondrial Membrane Potential (线粒体膜电位) 的测试结果。
- 测定化合物是否对线粒体功能造成影响。
SR-p53
:- p53 (肿瘤抑制因子) 的测试结果。
- 测定化合物是否影响 p53 基因的激活,与细胞周期和癌症相关。
其他列
13. mol_id
:
- 分子的唯一标识符(ID)。
- 用于区分不同的化合物。
smiles
:- 分子结构的 SMILES 表示(Simplified Molecular Input Line Entry System)。
- 用于描述分子的化学结构。
标签说明
1.0
: 表示阳性结果(化合物对目标有显著影响)。0.0
: 表示阴性结果(化合物对目标无显著影响)。NaN
: 表示未测定或数据缺失。
使用 ECFP 特征化方法加载并划分数据
参考网址https://deepchem.readthedocs.io/en/latest/api_reference/moleculenet.html
Number of tasks: 12 Number of training samples: 6258 Number of validation samples: 782 Number of test samples: 783 Shape of training features: (6258, 1024) Shape of training labels: (6258, 12)
First 5 samples in training dataset: Sample 1: Features: [0. 0. 0. ... 0. 0. 0.] Labels: [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.] Sample 2: Features: [0. 0. 0. ... 0. 0. 0.] Labels: [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.] Sample 3: Features: [0. 1. 0. ... 0. 0. 0.] Labels: [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.] Sample 4: Features: [0. 0. 0. ... 0. 0. 0.] Labels: [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.] Sample 5: Features: [0. 1. 0. ... 0. 0. 0.] Labels: [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]