简介
HHblits是一种生物信息学工具,专用于分析蛋白质序列,是 HHSuite 软件的一部分。其主要作用是在蛋白质序列中寻找远程同源性
,同时也可用于进行蛋白质结构的预测。
HHblits运作原理基于隐马尔可夫模型(HMM),将蛋白质序列表示为HMM,并使用这些HMM进行比对,以评估它们之间的相似性。不同于传统的序列比对工具(如BLAST),HHblits通过多序列比对信息来提高比对的准确性,尤其擅长寻找那些在传统方法中难以检测到的远程同源序列。
HHblits在多个领域中都有广泛的应用,包括结构生物学、蛋白质进化和生物信息学等。它可以用于寻找潜在的同源蛋白质、帮助预测蛋白质的结构和功能,并支持研究蛋白质家族的演化历史。这使得HHblits成为生物信息学研究中不可或缺的工具之一。
命令行使用
Step 1: 按顺序在 Linux shell 中执行下面命令安装 hhblits:
git clone https://github.com/soedinglab/hh-suite.git
mkdir -p hh-suite/build && cd hh-suite/build
cmake -DCMAKE_INSTALL_PREFIX=. ..
make -j 4 && make install
export PATH="<span class="katex"><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mopen">(</span><span class="mord mathnormal" style="margin-right:0.02691em;">pw</span><span class="mord mathnormal">d</span><span class="mclose">)</span><span class="mord">/</span><span class="mord mathnormal">bin</span><span class="mspace" style="margin-right:0.2778em;"></span><span class="mrel">:</span></span></span></span>(pwd)/scripts:$PATH"
查看安装路径:
Step 2: 以 hhblits 使用为例:
查看帮助文件:
hhblits -h
使用方法:
- 执行 HHblits 的单次搜索迭代:
hhblits -i query.fas -o query.hhr -d ./uniclust30
- 生成同源序列的比对:
hhblits -i query.fas -o query.hhr -oa3m query.a3m -n 1 -d ./uniclust30
其中Uniclust30是一个蛋白质序列数据集,用于进行蛋白质序列比对和分析。它包含来自Uniprot数据库的蛋白质序列,其中"30"表示该数据集包括具有最多30%序列相似性的蛋白质序列。Uniclust30主要包含具有较远程同源关系的蛋白质序列,旨在提供一种检测远程同源性的工具。传统的序列比对方法(如BLAST)在处理低相似性蛋白质序列时可能不够敏感,而Uniclust30的多样性序列有助于更好地捕获这些远程同源关系。它在生物信息学和结构生物学研究中被广泛应用,特别是在探索具有较远程同源关系的蛋白质的结构和功能时。
在线使用
进入在线网址,以 AAN59974.1 histone H2A [Homo sapiens] 为例,将其氨基酸序列输入到搜索框中,选择 UniRed30_2023_02 数据库,点击 Submit:
然后根据返回结果进行所需分析,下面是返回结果的部分截图:
返回结果的第一行解释:
No Hit: 匹配的蛋白质信息的序号。
Prob: 匹配的概率,表示匹配的可信度,这里是100%,即非常可信。
E-value: 期望值,表示匹配结果出现的随机概率,这里是5.3E-92,非常接近零,表明非常显著。
P-value: P值,表示匹配结果的统计显著性,这里是1.3E-97,也非常接近零。
Score: 匹配的得分,这里是560.3,表示匹配的质量很高。
SS: 次要结构(Secondary Structure),表示匹配的蛋白质次要结构与模型的比对情况,这里是0.0,表示一致。
Cols: 匹配的列数,这里是130列。
Query HMM: 查询序列的位置范围,这里是1-130,表示查询序列中的第1到第130个氨基酸。
Template HMM: 模板序列的位置范围,这里是1-130 (204),表示匹配的模板序列中的第1到第130个氨基酸,总共204个氨基酸。
参考
- Remmert M, Biegert A, Hauser A, et al. HHblits: lightning-fast iterative protein sequence searching by HMM-HMM alignment[J]. Nature methods, 2012, 9(2): 173-175. https://doi.org/10.1038/nmeth.1818
- Zimmermann L, Stephens A, Nam S Z, et al. A completely reimplemented MPI bioinformatics toolkit with a new HHpred server at its core[J]. Journal of molecular biology, 2018, 430(15): 2237-2243.https://doi.org/10.1016/j.jmb.2017.12.007.
- 软件包地址:https://github.com/soedinglab/hh-suite.git
- 在线工具:https://toolkit.tuebingen.mpg.de/tools/hhblits