空间站广场

论文

Notebooks

比赛

课程

Apps

我的主页

我的Notebooks

我的论文库

我的足迹

我的工作空间

任务

节点

文件

数据集

镜像

项目

数据库

公开

序列比对工具 JackHMMER

生物信息学

序列比对

生物信息学序列比对

孙楠

发布于 2023-09-11

推荐镜像 :Basic Image:ubuntu20.04-py3.10

推荐机型 :c2_m4_cpu

数据集

t_5G(v2)

序列比对工具 JackHMMER

简介

JackHMMER是生物信息学领域的一款强大工具，它是HMMER（Hidden Markov Model for Molecular Evolution）软件包的一部分。其主要用途是寻找与指定查询序列具有相似性的DNA或者蛋白质序列。JackHMMER利用隐马尔可夫模型（HMM）来描述蛋白质或核酸序列的结构和模式。其工作原理采用了迭代比对策略，首先进行一轮比对，然后根据这一轮的结果构建HMM模型，接着使用该模型进行下一轮比对，如此迭代，直到达到收敛条件。这一迭代的过程有助于发现更遥远的同源序列。

在AlphaFold的工作流程中，JackHMMER被用于查找与目标蛋白质相关的同源序列，这些同源序列通常具有已知的结构信息，可以用来辅助蛋白质结构的预测。JackHMMER在此过程中帮助AlphaFold发现与目标蛋白质相关的结构信息，为高精度蛋白质结构预测做出贡献。

HMMER旨在依靠其基础概率模型的强度尽可能灵敏地检测远程同源物，也就是比起BLAST，在研究基因功能角度HMMER的准确性更高。过去，这种优势需要大量的计算成本，但从新的 HMMER3 项目开始，HMMER 现在基本上与 BLAST 一样快。

PS: 远程同源物（remote homolog）是指两种生物分子（通常是蛋白质或核酸序列）之间的同源性，但它们的共同祖先比较遥远，进化距离较大，因此它们的序列相似性可能较低。这种类型的同源性通常很难通过常规的序列比对方法来检测到，因为相似性可能不明显。远程同源物的发现对于理解生物分子的功能和进化关系非常重要，因为它们可能在结构和功能上具有一些共同的特征，尽管它们的序列相似性较低。（ChatGPT给出的解释）

代码

文本

命令行实现

Step 1: 按顺序在 Linux shell 中执行下面命令安装 hmmer：

wget -c http://eddylab.org/software/hmmer/hmmer-3.4.tar.gz
tar zxf hmmer-3.4.tar.gz
mv hmmer-3.4 hmmer
cd hmmer
./configure
make
make install
export PATH=/usr/local/bin/:$PATH
source ~/.bashrc

默认安装在 /usr/local/bin/ 路径下，hmmer 主要包含下面几个程序：

截屏2023-09-07 下午5.32.03.png

hmmer使用手册解释这18个程序功能：

截屏2023-09-07 下午5.50.47.png

代码

文本

Step 2: 以 jackhmmer 使用为例：

jackhmmer类似于PSI-BLAST，用于针对序列数据库迭代搜索单个序列查询。jackhmmer的使用方法可以在hmmer使用手册的42页找到。

查看帮助文件：

jackhmmer -h

代码

文本

针对6Y4F.fasta序列，在数据库uniref90_subset_5G.fasta中搜索相似序列：

jackhmmer -N 5 -o myquery.out -A myquery.aln --tblout myquery.hits --domtblout myquery.domtblout 6Y4F.fasta uniref90_subset_5G.fasta

其中

-N 5：指定最大迭代次数为 5 次。这表示 jackhmmer 将执行最多 5 轮的迭代搜索。
-o myquery.out：将输出结果保存到名为 "myquery.out" 的文件中。
-A myquery.aln：将命中的多重序列比对保存到名为 "myquery.aln" 的文件中。
--tblout myquery.hits：将每个命中的详细信息保存到名为 "myquery.hits" 的文件中。
--domtblout myquery.domtblout：将每个命中的域的详细信息保存到名为 "myquery.domtblout" 的文件中。
6Y4F.fasta：指定查询序列文件，这里是 "6Y4F.fasta"。
uniref90_subset_5G.fasta：指定用于搜索的数据库，这里假设数据库文件名为 "uniref90_subset_5G.fasta"。

执行完上面命令将生成下面4个文件

截屏2023-09-07 下午10.01.43.png

按需取用即可。

代码

文本

在线使用

进入在线网址，以6Y4F为例，将其氨基酸序列输入到搜索框中，选择 Reference Proteomes 数据库，点击 Submit 进行比对，然后根据返回结果进行所需分析。

截屏2023-09-07 下午9.26.22.png

代码

文本

参考

官网：http://hmmer.org/
生信入门：序列比对之HMMER

代码

文本

生物信息学

序列比对

生物信息学序列比对

点个赞吧

本文被以下合集收录

生物信息学 Notebooks Collection

liyongge

更新于 2024-09-13

33 篇75 人关注

序列分析

liyongge

更新于 2024-04-01

4 篇1 人关注

推荐阅读

公开

序列比对工具 HHblits

生物信息学序列比对

孙楠

发布于 2023-09-11

1 赞

公开

第七次作业-陈湘

中文

OrangeFree

发布于 2024-04-21

# 序列比对工具 JackHMMER <...

yufeng

09-25 20:28

感谢整理了这么多序列比对工具，这些工具各有什么优劣，实际应用中一般用哪个？

孙楠

作者

10-16 01:10

感谢你的问题！ JackHMMER: 优势：适用于蛋白质的远程同源性搜索；在多样性较高的蛋白质家族中表现出色。劣势：相对较慢，对于大规模数据集可能需要更多时间。 MMseqs: 优势：速度快，特别适用于大规模的序列比对。劣势：可能在寻找远亲缘关系的蛋白质方面不如HMMER等工具准确。 HHblits: 优势：专门用于蛋白质的远程同源性搜索。劣势：较慢，对计算资源的需求较高。 BLAST: 优势：速度快，适用于快速局部比对。劣势：对于远程同源性的搜索，准确性可能不如HMMER或HHblits。在实际应用中，选择哪个工具可能还是取决于具体任务和数据。如果需要快速的局部比对，BLAST是不错的选择；对于蛋白质序列的远程同源性搜索，HMMER、HHblits和MMseqs都是不错的工具。

展开

序列比对工具 JackHMMER

目录

简介

命令行实现

在线使用

参考