空间站广场

论文

Notebooks

比赛

课程

Apps

我的主页

我的Notebooks

我的论文库

我的足迹

我的工作空间

任务

节点

文件

数据集

镜像

项目

数据库

公开

序列比对工具 HHblits

生物信息学

序列比对

生物信息学序列比对

孙楠

发布于 2023-09-11

推荐镜像 :Basic Image:ubuntu20.04-py3.10

推荐机型 :c2_m4_cpu

序列比对工具 HHblits

简介

命令行使用

在线使用

参考

序列比对工具 HHblits

简介

HHblits是一种生物信息学工具，专用于分析蛋白质序列，是 HHSuite 软件的一部分。其主要作用是在蛋白质序列中寻找远程同源性，同时也可用于进行蛋白质结构的预测。

HHblits运作原理基于隐马尔可夫模型（HMM），将蛋白质序列表示为HMM，并使用这些HMM进行比对，以评估它们之间的相似性。不同于传统的序列比对工具（如BLAST），HHblits通过多序列比对信息来提高比对的准确性，尤其擅长寻找那些在传统方法中难以检测到的远程同源序列。

HHblits在多个领域中都有广泛的应用，包括结构生物学、蛋白质进化和生物信息学等。它可以用于寻找潜在的同源蛋白质、帮助预测蛋白质的结构和功能，并支持研究蛋白质家族的演化历史。这使得HHblits成为生物信息学研究中不可或缺的工具之一。

代码

文本

命令行使用

Step 1: 按顺序在 Linux shell 中执行下面命令安装 hhblits：

git clone https://github.com/soedinglab/hh-suite.git
mkdir -p hh-suite/build && cd hh-suite/build
cmake -DCMAKE_INSTALL_PREFIX=. ..
make -j 4 && make install
export PATH="<span class="katex"><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mopen">(</span><span class="mord mathnormal" style="margin-right:0.02691em;">pw</span><span class="mord mathnormal">d</span><span class="mclose">)</span><span class="mord">/</span><span class="mord mathnormal">bin</span><span class="mspace" style="margin-right:0.2778em;"></span><span class="mrel">:</span></span></span></span>(pwd)/scripts:$PATH"

查看安装路径：截屏2023-09-08 上午11.45.52.png

代码

文本

Step 2: 以 hhblits 使用为例：

查看帮助文件：

hhblits -h

使用方法：

执行 HHblits 的单次搜索迭代：

hhblits -i query.fas -o query.hhr -d ./uniclust30

生成同源序列的比对：

hhblits -i query.fas -o query.hhr -oa3m query.a3m -n 1 -d ./uniclust30

其中Uniclust30是一个蛋白质序列数据集，用于进行蛋白质序列比对和分析。它包含来自Uniprot数据库的蛋白质序列，其中"30"表示该数据集包括具有最多30%序列相似性的蛋白质序列。Uniclust30主要包含具有较远程同源关系的蛋白质序列，旨在提供一种检测远程同源性的工具。传统的序列比对方法（如BLAST）在处理低相似性蛋白质序列时可能不够敏感，而Uniclust30的多样性序列有助于更好地捕获这些远程同源关系。它在生物信息学和结构生物学研究中被广泛应用，特别是在探索具有较远程同源关系的蛋白质的结构和功能时。

代码

文本

在线使用

进入在线网址，以 AAN59974.1 histone H2A [Homo sapiens] 为例，将其氨基酸序列输入到搜索框中，选择 UniRed30_2023_02 数据库，点击 Submit：

截屏2023-09-08 下午12.12.04.png

然后根据返回结果进行所需分析，下面是返回结果的部分截图：截屏2023-09-08 下午12.18.35.png

返回结果的第一行解释：

No Hit: 匹配的蛋白质信息的序号。

Prob: 匹配的概率，表示匹配的可信度，这里是100%，即非常可信。

E-value: 期望值，表示匹配结果出现的随机概率，这里是5.3E-92，非常接近零，表明非常显著。

P-value: P值，表示匹配结果的统计显著性，这里是1.3E-97，也非常接近零。

Score: 匹配的得分，这里是560.3，表示匹配的质量很高。

SS: 次要结构（Secondary Structure），表示匹配的蛋白质次要结构与模型的比对情况，这里是0.0，表示一致。

Cols: 匹配的列数，这里是130列。

Query HMM: 查询序列的位置范围，这里是1-130，表示查询序列中的第1到第130个氨基酸。

Template HMM: 模板序列的位置范围，这里是1-130 (204)，表示匹配的模板序列中的第1到第130个氨基酸，总共204个氨基酸。

代码

文本

参考

Remmert M, Biegert A, Hauser A, et al. HHblits: lightning-fast iterative protein sequence searching by HMM-HMM alignment[J]. Nature methods, 2012, 9(2): 173-175. https://doi.org/10.1038/nmeth.1818
Zimmermann L, Stephens A, Nam S Z, et al. A completely reimplemented MPI bioinformatics toolkit with a new HHpred server at its core[J]. Journal of molecular biology, 2018, 430(15): 2237-2243.https://doi.org/10.1016/j.jmb.2017.12.007.
软件包地址：https://github.com/soedinglab/hh-suite.git
在线工具：https://toolkit.tuebingen.mpg.de/tools/hhblits

代码

文本

生物信息学

序列比对

生物信息学序列比对

已赞1

本文被以下合集收录

生物信息学 Notebooks Collection

liyongge

更新于 2024-09-13

33 篇75 人关注

序列分析

liyongge

更新于 2024-04-01

4 篇1 人关注

序列比对工具 HHblits

目录

简介

命令行使用

在线使用

参考