Bohrium
robot
新建

空间站广场

论文
Notebooks
比赛
课程
Apps
我的主页
我的Notebooks
我的论文库
我的足迹

我的工作空间

任务
节点
文件
数据集
镜像
项目
数据库
公开
序列比对工具 HHblits
生物信息学
序列比对
生物信息学序列比对
孙楠
发布于 2023-09-11
推荐镜像 :Basic Image:ubuntu20.04-py3.10
推荐机型 :c2_m4_cpu
赞 1
序列比对工具 HHblits
目录
简介
命令行使用
在线使用
参考

序列比对工具 HHblits

Open In Bohrium

目录

代码
文本

简介

HHblits是一种生物信息学工具,专用于分析蛋白质序列,是 HHSuite 软件的一部分。其主要作用是在蛋白质序列中寻找远程同源性,同时也可用于进行蛋白质结构的预测。

HHblits运作原理基于隐马尔可夫模型(HMM),将蛋白质序列表示为HMM,并使用这些HMM进行比对,以评估它们之间的相似性。不同于传统的序列比对工具(如BLAST),HHblits通过多序列比对信息来提高比对的准确性,尤其擅长寻找那些在传统方法中难以检测到的远程同源序列。

HHblits在多个领域中都有广泛的应用,包括结构生物学、蛋白质进化和生物信息学等。它可以用于寻找潜在的同源蛋白质、帮助预测蛋白质的结构和功能,并支持研究蛋白质家族的演化历史。这使得HHblits成为生物信息学研究中不可或缺的工具之一。

代码
文本

命令行使用

Step 1: 按顺序在 Linux shell 中执行下面命令安装 hhblits:

git clone https://github.com/soedinglab/hh-suite.git
mkdir -p hh-suite/build && cd hh-suite/build
cmake -DCMAKE_INSTALL_PREFIX=. ..
make -j 4 && make install
export PATH="<span class="katex"><span class="katex-html" aria-hidden="true"><span class="base"><span class="strut" style="height:1em;vertical-align:-0.25em;"></span><span class="mopen">(</span><span class="mord mathnormal" style="margin-right:0.02691em;">pw</span><span class="mord mathnormal">d</span><span class="mclose">)</span><span class="mord">/</span><span class="mord mathnormal">bin</span><span class="mspace" style="margin-right:0.2778em;"></span><span class="mrel">:</span></span></span></span>(pwd)/scripts:$PATH"

查看安装路径: 截屏2023-09-08 上午11.45.52.png

代码
文本

Step 2: 以 hhblits 使用为例:

查看帮助文件:

hhblits -h

使用方法:

  • 执行 HHblits 的单次搜索迭代:
hhblits -i query.fas -o query.hhr -d ./uniclust30
  • 生成同源序列的比对:
hhblits -i query.fas -o query.hhr -oa3m query.a3m -n 1 -d ./uniclust30

其中Uniclust30是一个蛋白质序列数据集,用于进行蛋白质序列比对和分析。它包含来自Uniprot数据库的蛋白质序列,其中"30"表示该数据集包括具有最多30%序列相似性的蛋白质序列。Uniclust30主要包含具有较远程同源关系的蛋白质序列,旨在提供一种检测远程同源性的工具。传统的序列比对方法(如BLAST)在处理低相似性蛋白质序列时可能不够敏感,而Uniclust30的多样性序列有助于更好地捕获这些远程同源关系。它在生物信息学和结构生物学研究中被广泛应用,特别是在探索具有较远程同源关系的蛋白质的结构和功能时。

代码
文本

在线使用

进入在线网址,以 AAN59974.1 histone H2A [Homo sapiens] 为例,将其氨基酸序列输入到搜索框中,选择 UniRed30_2023_02 数据库,点击 Submit:

截屏2023-09-08 下午12.12.04.png

然后根据返回结果进行所需分析,下面是返回结果的部分截图: 截屏2023-09-08 下午12.18.35.png

返回结果的第一行解释:

  • No Hit: 匹配的蛋白质信息的序号。

  • Prob: 匹配的概率,表示匹配的可信度,这里是100%,即非常可信。

  • E-value: 期望值,表示匹配结果出现的随机概率,这里是5.3E-92,非常接近零,表明非常显著。

  • P-value: P值,表示匹配结果的统计显著性,这里是1.3E-97,也非常接近零。

  • Score: 匹配的得分,这里是560.3,表示匹配的质量很高。

  • SS: 次要结构(Secondary Structure),表示匹配的蛋白质次要结构与模型的比对情况,这里是0.0,表示一致。

  • Cols: 匹配的列数,这里是130列。

  • Query HMM: 查询序列的位置范围,这里是1-130,表示查询序列中的第1到第130个氨基酸。

  • Template HMM: 模板序列的位置范围,这里是1-130 (204),表示匹配的模板序列中的第1到第130个氨基酸,总共204个氨基酸。

代码
文本

参考

代码
文本
生物信息学
序列比对
生物信息学序列比对
已赞1
本文被以下合集收录
生物信息学 Notebooks Collection
liyongge
更新于 2024-09-13
33 篇75 人关注
序列分析
liyongge
更新于 2024-04-01
4 篇1 人关注
推荐阅读
公开
序列比对工具 MMseqs
生物信息学序列比对
生物信息学序列比对
孙楠
发布于 2023-09-11
公开
序列比对工具 JackHMMER
生物信息学序列比对
生物信息学序列比对
孙楠
发布于 2023-09-11
2 评论