Bohrium
robot
新建

空间站广场

论文
Notebooks
比赛
课程
Apps
我的主页
我的Notebooks
我的论文库
我的足迹

我的工作空间

任务
节点
文件
数据集
镜像
项目
数据库
公开
序列比对工具 JackHMMER
生物信息学
序列比对
生物信息学序列比对
孙楠
发布于 2023-09-11
推荐镜像 :Basic Image:ubuntu20.04-py3.10
推荐机型 :c2_m4_cpu
t_5G(v2)

序列比对工具 JackHMMER

Open In Bohrium

目录

代码
文本

简介

JackHMMER是生物信息学领域的一款强大工具,它是HMMER(Hidden Markov Model for Molecular Evolution)软件包的一部分。其主要用途是寻找与指定查询序列具有相似性的DNA或者蛋白质序列。JackHMMER利用隐马尔可夫模型(HMM)来描述蛋白质或核酸序列的结构和模式。其工作原理采用了迭代比对策略,首先进行一轮比对,然后根据这一轮的结果构建HMM模型,接着使用该模型进行下一轮比对,如此迭代,直到达到收敛条件。这一迭代的过程有助于发现更遥远的同源序列。

在AlphaFold的工作流程中,JackHMMER被用于查找与目标蛋白质相关的同源序列,这些同源序列通常具有已知的结构信息,可以用来辅助蛋白质结构的预测。JackHMMER在此过程中帮助AlphaFold发现与目标蛋白质相关的结构信息,为高精度蛋白质结构预测做出贡献。

HMMER旨在依靠其基础概率模型的强度尽可能灵敏地检测远程同源物,也就是比起BLAST,在研究基因功能角度HMMER的准确性更高。过去,这种优势需要大量的计算成本,但从新的 HMMER3 项目开始,HMMER 现在基本上与 BLAST 一样快。

PS: 远程同源物(remote homolog)是指两种生物分子(通常是蛋白质或核酸序列)之间的同源性,但它们的共同祖先比较遥远,进化距离较大,因此它们的序列相似性可能较低。这种类型的同源性通常很难通过常规的序列比对方法来检测到,因为相似性可能不明显。远程同源物的发现对于理解生物分子的功能和进化关系非常重要,因为它们可能在结构和功能上具有一些共同的特征,尽管它们的序列相似性较低。(ChatGPT给出的解释)

代码
文本

命令行实现

Step 1: 按顺序在 Linux shell 中执行下面命令安装 hmmer:

wget -c http://eddylab.org/software/hmmer/hmmer-3.4.tar.gz
tar zxf hmmer-3.4.tar.gz
mv hmmer-3.4 hmmer
cd hmmer
./configure
make
make install
export PATH=/usr/local/bin/:$PATH
source ~/.bashrc

默认安装在 /usr/local/bin/ 路径下,hmmer 主要包含下面几个程序:

截屏2023-09-07 下午5.32.03.png

hmmer使用手册解释这18个程序功能:

截屏2023-09-07 下午5.50.47.png

代码
文本

Step 2: 以 jackhmmer 使用为例:

jackhmmer类似于PSI-BLAST,用于针对序列数据库迭代搜索单个序列查询。jackhmmer的使用方法可以在hmmer使用手册的42页找到。

查看帮助文件:

jackhmmer -h
代码
文本

针对6Y4F.fasta序列,在数据库uniref90_subset_5G.fasta中搜索相似序列:

jackhmmer -N 5 -o myquery.out -A myquery.aln --tblout myquery.hits --domtblout myquery.domtblout 6Y4F.fasta uniref90_subset_5G.fasta

其中

  • -N 5:指定最大迭代次数为 5 次。这表示 jackhmmer 将执行最多 5 轮的迭代搜索。
  • -o myquery.out:将输出结果保存到名为 "myquery.out" 的文件中。
  • -A myquery.aln:将命中的多重序列比对保存到名为 "myquery.aln" 的文件中。
  • --tblout myquery.hits:将每个命中的详细信息保存到名为 "myquery.hits" 的文件中。
  • --domtblout myquery.domtblout:将每个命中的域的详细信息保存到名为 "myquery.domtblout" 的文件中。
  • 6Y4F.fasta:指定查询序列文件,这里是 "6Y4F.fasta"。
  • uniref90_subset_5G.fasta:指定用于搜索的数据库,这里假设数据库文件名为 "uniref90_subset_5G.fasta"。

执行完上面命令将生成下面4个文件

截屏2023-09-07 下午10.01.43.png

按需取用即可。

代码
文本

在线使用

进入在线网址,以6Y4F为例,将其氨基酸序列输入到搜索框中,选择 Reference Proteomes 数据库,点击 Submit 进行比对,然后根据返回结果进行所需分析。

截屏2023-09-07 下午9.26.22.png

代码
文本
生物信息学
序列比对
生物信息学序列比对
点个赞吧
本文被以下合集收录
生物信息学 Notebooks Collection
liyongge
更新于 2024-09-13
33 篇75 人关注
序列分析
liyongge
更新于 2024-04-01
4 篇1 人关注
推荐阅读
公开
序列比对工具 HHblits
生物信息学序列比对
生物信息学序列比对
孙楠
发布于 2023-09-11
1 赞
公开
第七次作业-陈湘
中文
中文
OrangeFree
发布于 2024-04-21
评论
 # 序列比对工具 JackHMMER <...

yufeng

09-25 20:28
感谢整理了这么多序列比对工具,这些工具各有什么优劣,实际应用中一般用哪个?

孙楠

作者
10-16 01:10
感谢你的问题! JackHMMER: 优势:适用于蛋白质的远程同源性搜索;在多样性较高的蛋白质家族中表现出色。 劣势:相对较慢,对于大规模数据集可能需要更多时间。 MMseqs: 优势:速度快,特别适用于大规模的序列比对。 劣势:可能在寻找远亲缘关系的蛋白质方面不如HMMER等工具准确。 HHblits: 优势:专门用于蛋白质的远程同源性搜索。 劣势:较慢,对计算资源的需求较高。 BLAST: 优势:速度快,适用于快速局部比对。 劣势:对于远程同源性的搜索,准确性可能不如HMMER或HHblits。 在实际应用中,选择哪个工具可能还是取决于具体任务和数据。如果需要快速的局部比对,BLAST是不错的选择;对于蛋白质序列的远程同源性搜索,HMMER、HHblits和MMseqs都是不错的工具。
展开
评论