简介
JackHMMER是生物信息学领域的一款强大工具,它是HMMER(Hidden Markov Model for Molecular Evolution)软件包的一部分。其主要用途是寻找与指定查询序列具有相似性的DNA或者蛋白质序列。JackHMMER利用隐马尔可夫模型(HMM)来描述蛋白质或核酸序列的结构和模式。其工作原理采用了迭代比对策略,首先进行一轮比对,然后根据这一轮的结果构建HMM模型,接着使用该模型进行下一轮比对,如此迭代,直到达到收敛条件。这一迭代的过程有助于发现更遥远的同源序列。
在AlphaFold的工作流程中,JackHMMER被用于查找与目标蛋白质相关的同源序列,这些同源序列通常具有已知的结构信息,可以用来辅助蛋白质结构的预测。JackHMMER在此过程中帮助AlphaFold发现与目标蛋白质相关的结构信息,为高精度蛋白质结构预测做出贡献。
HMMER旨在依靠其基础概率模型的强度尽可能灵敏地检测远程同源物,也就是比起BLAST,在研究基因功能角度HMMER的准确性更高。过去,这种优势需要大量的计算成本,但从新的 HMMER3 项目开始,HMMER 现在基本上与 BLAST 一样快。
PS: 远程同源物(remote homolog)是指两种生物分子(通常是蛋白质或核酸序列)之间的同源性,但它们的共同祖先比较遥远,进化距离较大,因此它们的序列相似性可能较低。这种类型的同源性通常很难通过常规的序列比对方法来检测到,因为相似性可能不明显。远程同源物的发现对于理解生物分子的功能和进化关系非常重要,因为它们可能在结构和功能上具有一些共同的特征,尽管它们的序列相似性较低。(ChatGPT给出的解释)
命令行实现
Step 1: 按顺序在 Linux shell 中执行下面命令安装 hmmer:
wget -c http://eddylab.org/software/hmmer/hmmer-3.4.tar.gz
tar zxf hmmer-3.4.tar.gz
mv hmmer-3.4 hmmer
cd hmmer
./configure
make
make install
export PATH=/usr/local/bin/:$PATH
source ~/.bashrc
默认安装在 /usr/local/bin/ 路径下,hmmer 主要包含下面几个程序:
hmmer使用手册解释这18个程序功能:
Step 2: 以 jackhmmer 使用为例:
jackhmmer类似于PSI-BLAST,用于针对序列数据库迭代搜索单个序列查询。jackhmmer的使用方法可以在hmmer使用手册的42页找到。
查看帮助文件:
jackhmmer -h
针对6Y4F.fasta序列,在数据库uniref90_subset_5G.fasta中搜索相似序列:
jackhmmer -N 5 -o myquery.out -A myquery.aln --tblout myquery.hits --domtblout myquery.domtblout 6Y4F.fasta uniref90_subset_5G.fasta
其中
-N 5
:指定最大迭代次数为 5 次。这表示 jackhmmer 将执行最多 5 轮的迭代搜索。-o myquery.out
:将输出结果保存到名为 "myquery.out" 的文件中。-A myquery.aln
:将命中的多重序列比对保存到名为 "myquery.aln" 的文件中。--tblout myquery.hits
:将每个命中的详细信息保存到名为 "myquery.hits" 的文件中。--domtblout myquery.domtblout
:将每个命中的域的详细信息保存到名为 "myquery.domtblout" 的文件中。6Y4F.fasta
:指定查询序列文件,这里是 "6Y4F.fasta"。uniref90_subset_5G.fasta
:指定用于搜索的数据库,这里假设数据库文件名为 "uniref90_subset_5G.fasta"。
执行完上面命令将生成下面4个文件
按需取用即可。
在线使用
进入在线网址,以6Y4F为例,将其氨基酸序列输入到搜索框中,选择 Reference Proteomes 数据库,点击 Submit 进行比对,然后根据返回结果进行所需分析。
yufeng
孙楠