Target Fishing
1. 前言
确定药物分子的潜在靶点是进行理性药物设计的基础。同时,明确药物的靶点,对理解药物的起效机制、开发靶向性药物、进行药物安全性评价和老药新用研究等多方面都有着非常重要的意义。
对于有明确活性,但并不知道确切作用靶点的化合物,一般会采用反向找靶(Target Fishing)的方法寻找化合物可能的靶点。反向找靶的核心思想是从已知或潜在的药物分子出发,通过计算或实验手段,鉴定其可能的生物学靶点。
但是受制于通量和成本等多方面因素的制约,实验手段的应用难以广泛开展。作为一种高效和低成本的技术,计算机辅助的反向找靶工具因而得到了广泛的应用。
深势科技通过结合蛋白预训练模型和对比学习方法,在大量参数调优的基础上,针对大规模化合物库和人类蛋白质组的部署与管理进行了优化,成功开发了易于使用的反向找靶在线工具Target Fishing功能。
TargetFishing在保证高准确度、未知数据广泛适应性以及诱饵化合物特异性的基础上,根据学习到的表征间距离预测结合情况,从而能够在大规模化合物库与人类蛋白质组规模上进行预测。后续还将接入深势科技的3D分子表征预训练模型Uni-Mol,以进一步优化反向找靶工具的准确性。
在本教程中,我们将使用Abemaciclib分子进行Target Fishing的操作演示。根据DrugBank网站的数据,Abemaciclib分子的已知靶点为CDK4和CDK6。
Abemaciclib分子的SMILES为:CCN1CCN(CC2=CC=C(NC3=NC=C(F)C(=N3)C3=CC(F)=C4N=C(C)N(C(C)C)C4=C3)N=C2)CC1
2. 使用方法
2.1 入口
Target Fishing工具已上线 Bohrium® Apps平台。点击链接https://app.bohrium.dp.tech/targetfishing 即可进入。
- Target Fishing模块支持以访客身份(Guest)访问,但访客仅提供浏览功能。以Guest登录后,点击下方的“Next”按钮(绿框),可依次进入后续步骤
- 以Guest身份访问时,在正式提交任务前,系统会提示使用Bohrium账号登录
【注】登录Bohrium® Apps后,即使在Bohrium®平台进行了Logout操作,也不会影响Bohrium® Apps的登陆状态
2.2 操作
2.2.1 输入化合物结构
目前支持5种方式输入化合物结构
1) 直接输入分子的SMILES字符串
在“Input Ligand”参数设置区域,从上方的下拉框中选择“Write Smiles”,并选中“Manual input”选项卡。在下方的“Smiles”对话框中输入分子的SMLIES字符串,然后“Enter”确认即可
2) 上传SMILES文件
在“Input Ligand”参数设置区域,从上方的下拉框中选择“Upload Smiles”。点击下方“Drag and drop file here”对话框中的“Browse files”按钮,在弹出的对话框中选中本地的SMLIES文件上传
上传完成的SMILES文件会显示在对话框下方。如果需要重新上传,可点击文件后方的“删除”按钮,删除已上传的文件
【注】:
- 允许上传的SMILES文件不能超过20MB
- 同一个SMILES文件中允许包含多个分子的SMILES
- SMILES文件的后缀为txt格式
3) 上传Mol(sdf)文件
在“Input Ligand”参数设置区域,从上方的下拉框中选择“Upload Mol”。点击下方“Drag and drop file here”对话框中的“Browse files”按钮,在弹出的对话框中选中本地的Mol(sdf)文件上传
上传完成的Mol(sdf)文件会显示在对话框下方。如果需要重新上传,可点击文件后方的“删除”按钮,删除已上传的文件
【注】:
- 允许上传的Mol文件不能超过20MB
- 同一个Mold(sdf)文件中允许包含多个分子的结构
- 允许上传的文件类型为sdf、mol、mol2
4) 使用化合物结构式(2D)编辑器输入分子结构
在“Input Ligand”参数设置区域,从上方的下拉框中选择“Write Smiles”,并选中“Build from Smiles Editor”选项卡。在下方的化合物结构编辑区域手动绘制化合物的2D结构即可
5) 使用化合物的专用名称或专用编号输入分子结构
在“Input Ligand”参数设置区域,从上方的下拉框中选择“Write Smiles”,并选中“Import from Identifiers”选项卡
在下方的“Identify Type”下拉框中选择一种化合物的命名方式或编号方式,并在下方的“Identify”对话框中输入相应的名称或编号,然后“Enter”确认即可
被正确识别的化合物的SMILES字符串会显示在“Identify”对话框下方
【注】支持的“Identify Type”包括:
- Common Name
- IUPAC Name
- CAS Number
- PubChem CID
- InChl
- InChlKey
- Formula
2.2.2 选择/上传 蛋白靶点数据库
使用Target Fishing进行化合物的靶点预测时,需要选择蛋白靶点的搜索范围。我们可以通过选择平台内置的蛋白靶点数据库,或上传自有的蛋白靶点数据进行设置。
1) 选择平台内置的蛋白靶点数据库
在“Input Protein”参数设置区域,从上方的下拉框中选择“Protein Database”。在下方“Protein Database”下拉框中,选择相应的数据库即可
选中的数据库会出现在“Protein Database”对话框中。如果需要重新选择,可以点击已选中的数据库后方的“删除”按钮,删除特定的数据库。或点击对话框后方的“删除”按钮,删除全部数据库
【注】:
- 平台内置的蛋白靶点数据库包括:
- uniprotkb_human
- uniprotkb_mouse
- uniprot_rat
- 支持同时选择多个数据库
2) 上传自有的蛋白靶点序列
在“Input Protein”参数设置区域,从上方的下拉框中选择“Upload Fasta”。点击下方“Drag and drop file here”对话框中的“Browse files”按钮,在弹出的对话框中选中本地的fasta文件上传
上传完成的fasta文件会显示在对话框下方。如果需要重新上传,可点击文件后方的“删除”按钮,删除已上传的文件
在确定好化合物结构和蛋白靶点数据后,点击下方的“Next”按钮,进入下一步。
2.2.3 选择计算资源和作业的共享范围
在“System Options”设置界面,我们可以选择计算资源和作业的共享范围
1) 选择任务使用的计算资源
【注】目前暂未开放自定义计算资源
- Bohrium Machine Type:机器类型
- Bohrium Platform:机器来源
- Bohrium Job Type:任务类型
2) 任务的共享范围
- Job Owner Access Exclusive:仅使用者自己能够访问
- Only collaborators of the job can access via link:仅Project的合作者可以通过共享的链接访问
- Anyone with the link can view:任何人都可以通过共享的链接访问
在设置好计算资源和作业的共享范围后,点击下方的“Next”按钮进入下一步。
2.2.4 输入参数检测和任务相关的参数设置
在“Review”界面,我们可以对之前步骤输入的全部参数进行检测,并设置与任务管理相关的其他参数
1) 检测输入参数
列表中显示了全部的输入参数类型和值,方便进行检测
2) 设置任务名的前缀(选填)
为了方便后续对任务的区分和管理,我们可以对每个任务设置任务名的前缀
【注】:
- 任务名的前缀仅支持数字和小写字母,不支持下划线“_”等特殊字符
- 完整任务名为:job-“任务名前缀”-targetfishing-xxx-xxx
- 任务名前缀可以留空
3) 选择关联的Bohrium项目
在“Bohrium Project”下拉框中选择Apps任务关联的Bohrium Project,以便对任务的访问权限和消费的预算进行管理
【注】如果您未在Bohrium®平台手动创建过任何Project,此处维持默认选项即可
【注】:
- 对于新注册的用户,Bohrium®平台会赠送一定量的体验金,Bohrium® Apps任务会优先消耗体验金中的预算
- 点击下方的“Top up to maintain optimal performance!”链接,在新打开的页面中可以对当前账户进行充值
4) 填写任务描述说明(选填)
在“Job Description”对话框中,可以填写任务的描述说明,方便后续对任务的管理
5) 提交任务
勾选“I agree to the terms and conditions”后,下方的“Submit”按钮变为可点击状态。此时点击“Submit”按钮完成任务提交
如果需要返回之前的步骤修改参数,可点击最下方的“Pre”按钮依此返回之前的界面
3. 结果显示、下载和导出
3.1 入口
在Target Fishing功能的主界面,点击上方“My Jobs”分页标签,进入任务查看和管理界面
在“List of Jobs”列表中,显示了当前账户下所有Target Fishing的任务,以及相应的信息和可用操作
3.2 结果显示和下载
点击“Name”列下相应的任务名,或“Action”列下相应任务的“Detail”按钮,打开任务的详情页面
1) 任务详细信息和运行状态
在任务详情页面,上方显示了任务的详细信息和运行状态,包括:名称、整体运行状态、创建时间、运行时间、作业的共享范围、任务描述说明和任务各阶段的运行状态等信息
2) 结果文件的显示和下载
在任务详情页下方的“Job Workspace”区域,显示了任务相关的输入、输出和中间文件。点击相应的文件或文件夹,即可在线预览文件内容,或进入下级目录
在“outputs”子目录下,存储了Target Fishing计算的所有结果输出文件
在“_large_scale_run.tsv”和“_large_scale_run.html”文件中存储了Target Fishing的全部预测结果
直接点击文件,在下方的“Preview”区域会在线显示文件的内容。点击文件后方的“Download”按钮,可下载相应的文件
【注】:
- “_large_scale_run.tsv”和“_large_scale_run.html”文件中的内容完全相同,仅文件格式和预览形式不同
- “_large_scale_run_human_common”和“_large_scale_run_human_explore”中分别记录了“常见的靶蛋白”和“非常见的靶蛋白”预测结果,已包含在“_large_scale_run”文件中
3) 结果解读
结果文件中包含的各项内容含义如下:
SMILES | 输入的分子SMILES |
Uniprot-ID | 靶蛋白的Uniprot ID |
Probability | 该蛋白为药物靶点的可能性(越接近1,可能性越大) |
ProteinSize | 该蛋白的氨基酸总数 |
ProteinName | 该蛋白的完整名称 |
GeneName | 编码该蛋白质的基因名称 |
Disease | 与该靶蛋白质相关的疾病信息 |
4 交流和反馈
如果您在使用Target Fishing功能的过程中遇到任何问题,或对该功能有任何建议,欢迎扫码加入微信群,和我们的开发团队交流