空间站广场
我的工作空间
1. 简介
Uni-QSAR [1] 是深势自研的QSAR建模平台, 它提供了一种基于人工智能(AI)的快速建模能力,允许用户基于自有数据进行建模。该平台拥有用户友好的操作流程,即便是没有机器学习背景的从业人员也能轻松上手,无需深入了解算法的复杂细节。同时,Uni-QSAR还提供了精细的模型选择接口,为资深用户提供了模型优化和调优的灵活性,以确保模型更加精准地适应特定的应用场景。通过Uni-QSAR平台,研究人员和行业专家可以更加高效地进行化合物筛选和药物设计,推动科学研究和产品开发的进步。
2. 应用场景
定量构效关系(Quantitative Structure-Activity Relationship, QSAR)是一种分析方法,它探究化合物的化学结构和物理化学性质与其生物活性之间的定量关系。通过这种关系建立预测模型,用以区分活性分子与非活性分子,或预测新化合物的生物活性。QSAR模型的建立通常依赖于机器学习(Machine Learning, ML)和深度学习(Deep Learning, DL),这些技术能够从已有的化合物数据中学习结构与性质的关联,构建出能够进行分类或回归分析的模型。
3. 主要特点
3.1 自主研发的预训练模型
预训练模型(pre-training model)是指在大量数据上采用无监督(unsupervised)或者弱监督(weak-supervised)的方式预先训练一个模型,以学习通用的特征表示。这些模型随后可以被迁移到特定的任务上,通过微调来适应新的问题,即使这些新任务的数据量有限。预训练模型利用迁移学习的优势,可以在新任务上快速达到较好的性能,同时减少了从头开始训练模型所需的时间和资源。
Uni-QSAR引入自主研发的3D预训练模型Uni-Mol [2],有效整合 3D 信息,Uni-Mol 的预训练模型本身在下游任务结果都表现异常优秀。Uni-QSAR进一步整合该优势,并且结合多维度分子信息以及不同模型的能力,在下游任务ADMET中的多个任务上都达到SOTA。
3.2 多维度的分子特征表示
Uni-QSAR结合多维度的分子特征表示,同时结合了基于1D,2D,3D的深度神经网络预训练模型的分子表征以及传统的分子指纹与描述符,这使得Uni-QSAR框架能够学到更多的分子信息,能在不同任务上取得优异成绩,并且应用在外部数据集下,Uni-QSAR能够具备更好的推理泛化能力。
3.3 高效的自动化机器学习策略
利用自动化机器学习的策略,内置了超参数自动优化的模块。无需对超参数和模型选择进行任何手动微调,自动提升分子属性预测的准确率。引入自动集成学习的策略,可以集成多个不同的模型实现对分子活性的预测,从而实现了对不同模型优点的整合,为许多药物发现领域的专业制药和化学科学家带来便利。
3.4 支持3D构象输入
通过直接输入更精确的3D构象,对于构象依赖比较重的任务会有显著提升。
3.5 更丰富的模型结果信息
对于集成模型和每一个子模型,都给出了更详细的模型分析图。
模型结果信息
如图所示依次为集成模型与子模型的具体细节、模型的超参数以及单模型的数据分析
-
模型细节(Model Details):展示了集成模型和子模型的Metrics,用户可以评估与比较该任务不同模型的效果,从而在之后的模型训练中调整细节,建立更好的集成模型。
-
模型超参数(Hyper-Parameters):在勾选超参数优化之后,此处会给出每个模型最优的超参数。在之后的类似任务中,用户可以在参数选择中选择此处提供的超参数方案,从而节省再次搜参导致的资源消耗。
-
数据分析(Data Analysis):在模型细节中选中集成模型或者某个子模型后,右边会给出该模型对应的数据分析图,从而更直观的帮助用户评估判断模型的结果。
3.6 可解释性可视化
预测结果增加了基于子结构的可视化可解释性图,帮助用户更好的理解子结构对于预测性质的贡献。
4. 最佳实践
4.1 Uni-QSAR模型助力甜味剂开发——解锁分子甜味的奥秘
在食品添加剂和甜味剂的开发领域,安全、高效且具有良好口感的甜味剂一直是研究的热点。近年来,随着消费者对健康和天然成分的日益关注,新型甜味剂的开发受到了极大的推动。在本案例中,我们利用Uni-QSAR技术,基于BitterSweet的分子甜味数据集,构建预测模型,用以评估和优化甜味剂分子。通过深入研究分子结构与甜味之间的关系,为开发更安全、更有效的甜味剂提供科学依据。
训练集:train_sweet.csv
测试集:test_sweet.csv
训练完成页面:
测试完成页面:
参考文献
[1] Gao Z, Ji X, Zhao G, et al. Uni-QSAR: an Auto-ML Tool for Molecular Property Prediction. arXiv preprint arXiv 2304, 12239 (2023). https://doi.org/10.48550/arXiv.2304.12239
[2] Zhou G, Gao Z, Ding Q, et al. Uni-mol: A universal 3d molecular representation learning framework[J]. 2023. https://doi.org/10.26434/chemrxiv-2022-jjm0j-v4