Bohrium
robot
新建

空间站广场

论文
Notebooks
比赛
课程
Apps
我的主页
我的Notebooks
我的论文库
我的足迹

我的工作空间

任务
节点
文件
数据集
镜像
项目
数据库
公开
蛋白组学分析教程(二):质谱数据格式简介
蛋白质组学
蛋白质组学
Julia_Xiang
发布于 2023-09-04
推荐镜像 :ABACUS:3.3.2-user-guide
推荐机型 :c2_m4_cpu
1. 质谱数据生产商和raw data格式
2. 质谱数据格式详解
2.1 netCDF(Network Common Data Form)
2.2 mzData
2.3 mzXML
2.4 mzML
3. 常用的数据格式转换工具
msconvert支持的数据格式
msconvert安装
msconvert的使用
参考

1. 质谱数据生产商和raw data格式

不同厂家的质谱仪器生产出来的raw质谱数据是不一样的,常见的仪器厂商和raw data的格式(又叫做 Vendor Format)如下: 2.png

可以看到还挺多的,但是需要注意,这些格式的数据不能直接作为我们下一步数据分析的来源,需要把它们转换为 open format 的数据格式才行;质谱分析中常用的开源质谱数据格式有:netCDF, mzData, mzXML, mzML;接下来详细介绍这些开源格式的情况

2. 质谱数据格式详解

2.1 netCDF(Network Common Data Form)

netCDF是一种通用的组织数据的格式,它最开始用于气象科学中的数据存储,现在已经广泛用于多个科学领域; NetCDF 文件中的数据以数组形式存储。例如:某个位置处随时间变化的温度以一维数组的形式存储。某个区域内在指定时间的温度以二维数组的形式存储。三维 (3D) 数据(如某个区域内随时间变化的温度)或四维 (4D) 数据(如某个区域内随时间和高度变化的温度)以一系列二维数组的形式存储 3.png

NetCDF 文件包含维度、变量和属性。将这几部分结合起来使用可以说明数据以及面向数组的数据集中各数据字段之间关系的含义。下图显示的是采用 CDL(网络公用数据格式语言)表示法来描述的 NetCDF 文件结构。CDL 是用于描述 NetCDF 文件内容的 ASCII 格式。

4.png

2.2 mzData

mzData是人类蛋白质组学组织(HUPO PSI)首次尝试创建的质谱数据的标准化格式。 现在不赞成使用mzData格式,并已将其替换为mzML格式

5.png

但是我们还是大概了解一下它长什么样:

6.png

mzData的数据组织格式如图所示,整体由三部分组成: cvLookup, description和spectrumList.

cvLookup 它将存储一个或多个受控词汇源的位置,名称,版本和一个简短的文件内参考标签。 7.png

description 每个数据集都以decription的部分作为开头。 此部分存储general的信息;例如生成数据的仪器,样品名称等 8.png

spectrumList 所有的质谱图和采集的数据都在这里描述显示。 这里还描述和附加了辅助数据数组。 9.png

10.png

<xs:element name="spectrumList">
  <xs:annotation>
    <xs:documentation>All mass spectra and the acquisitions underlying them are described and attached here. Subsidiary data arrays are also both described and attached here.</xs:documentation>
  </xs:annotation>
  <xs:complexType>
    <xs:sequence>
      <xs:element name="spectrum" maxOccurs="unbounded">
        <xs:annotation>
          <xs:documentation>This is an individual spectrum.The spectrum is considered to be composed of an array of acquisitions. There are two primary ways of representing data; base64 encoded binary (single or double precision) or arrays of simple data types. All arrays used to describe a single spectrum are the same length, with the same indexing.</xs:documentation>
        </xs:annotation>
        <xs:complexType>
          <xs:complexContent>
            <xs:extension base="spectrumType"/>
          </xs:complexContent>
        </xs:complexType>
      </xs:element>
    </xs:sequence>
    <xs:attribute name="count" type="xs:int" use="required">
      <xs:annotation>
        <xs:documentation>The number of spectra that are to be found in the attached list.</xs:documentation>
      </xs:annotation>
    </xs:attribute>
  </xs:complexType></xs:element>

2.3 mzXML

mzXML是基于XML(可扩展标记语言)的蛋白质组学质谱数据的通用文件格式,这种格式是在西雅图蛋白质组中心/系统生物学研究所开发的; 此格式最初于04年发表在Nature Biotechnology上原文链接在此

10.png

文件格式

11.png

如上图所示是mzXML数据格式的结构组织,

msRun 元素用于存储真实的质谱数据,包括以下信息

  • parentFile:存储该文件的名称,URI, fileType 文件类型(RAWData或者是processedData) ,fileSha1(键元素,为fileName属性中URI引用的文档计算的sha1-sum) 12.png

  • msInstrument:存储文件的质谱仪器信息,例如分辨率,制造商,model,离子化类型,质谱分析类型,检测器的类型,数据获取方法邓信息 13.png

  • dataProcessing:此元素描述在创建当前文件期间执行的任何类型的数据处理(例如,从raw data到mzXML的转换,质心化,降噪,峰值查找等) 14.png

  • separation 尽管mzXML格式仅代表质谱仪生成的信息,但质谱的某些应用与分离技术(例如在线微毛细管液相色谱质谱)紧密结合,以至于我们不得不将分离元素添加到mzXML中 模式。 由于严格意义上讲,这超出了mzXML格式的范围,因此尚未开发分离元素,而只是开发了占位符(创建可变内容容器元素)

  • spotting 15.png

该元素存储MALDI实验的特征,这些特征对于每次采集都是恒定的,例如基质组成,板的类型和几何形状以及点样机器人使用的模型

  • cff:Scan 该元素存储扫描的保留时间,MS水平,离子源的极性,电离能和扫描方式

16.png

index 作为索引,方便数据解析时提取数据

indexOffset 这是索引元素的偏移量。如果索引元素不存在,则必须设置xsi:nil =“ 1”。

sha1 此元素包含为当前实例文档计算的sha1-sum(由安全哈希算法(SHA1版本1.0。http://www.w3.org/PICS/DSig/SHA1_1_0.html)生成的数字签名)。 这是唯一的标识符,如果文件的单个位被修改,它将更改。 它提供了一种确定数据是否已损坏的方法。

mzXML文件的后缀必须是 .mzXML

2.4 mzML

http://www.psidev.info/mzML 官网 https://raw.githubusercontent.com/HUPO-PSI/mzML/master/schema/schema_1.1/mzML1.1.0.xsd 格式文件 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3013463/ 该数据格式的文章

由于mzData和mzXML不怎么被使用,因此HUPO-PSI,SPC / ISB和仪器供应商共同制定了一个统一的标准,以借鉴mzData和mzXML的特点,并替换它们。最初称为dataXML,后来正式宣布为 mzML 。第一个规范于2008年6月发布。此格式在2008年美国质谱学会会议上正式发布,此后相对稳定,几乎没有更新。2009年6月1日,发布了mzML 1.1.0。

17.png

3. 常用的数据格式转换工具

在介绍数据格式转换工具之前,先介绍一下比较著名的 ProteoWizard 软件项目。 ProteoWizard 软件项目于2007年在spielberg应用蛋白质组学中心启动,它提供了一组模块化且可扩展的开源跨平台工具。这些工具用于蛋白质组学数据分析以及化学分析和LCMS数据的分析;简而言之,它就是一个开源软件项目,为蛋白质组/代谢组学数据的分析提供有效的软件;

msconvert 就是其中一款经典的质谱数据格式转换工具,大家拿到raw的质谱下机data之后,若想进一步处理数据(将raw data转换为mzml这种第三方软件支持的格式),就可以用开源的 msconvert 来转换数据格式

msconvert支持的数据格式

msconvertProteoWizard 下的一款质谱数据格式转换工具,它分为图形界面版本(针对windows用户)和命令行版本的软件(linux系统)

它所支持转换的数据格式有:open formats(常用的开源格式,例如mzxml, mzml)以及生产商下机数据的格式;具体支持的所有格式见下表 18.png 19.png

msconvert安装

首先下载 ProteoWizard 套件, 注意 windows, linux和mac下载的软件包各自的说明是不一样的; windows用户需要确保电脑上有安装 .NET 3.5 版本的框架

msconvert的使用

http://proteowizard.sourceforge.net/tools/msconvert.html 命令行版本的tutorial http://proteowizard.sourceforge.net/IntroductoryTutorial.shtml GUI版本的介绍

23.png

这是图形界面版本的msconvert的主界面

参考

代码
文本
双击即可修改
代码
文本
蛋白质组学
蛋白质组学
点个赞吧
本文被以下合集收录
Proteomics
bohrf01c48
更新于 2023-09-22
2 篇0 人关注
推荐阅读
公开
聚合物热重实验热解活化能、反应级数和频率因子计算
python
python
zzh
更新于 2024-06-17
4 赞1 转存文件
公开
刘嘉梁-第1天-2403-计算材料学原理
2403-计算材料学原理《计算材料学》组队共读分子动力学作业计算材料学单斌华中科技大学Bohrium 帮助文档
2403-计算材料学原理《计算材料学》组队共读分子动力学作业计算材料学单斌华中科技大学Bohrium 帮助文档
kk
发布于 2024-03-09
3 赞2 转存文件