空间站广场

论文

Notebooks

比赛

课程

Apps

我的主页

我的Notebooks

我的论文库

我的足迹

我的工作空间

任务

节点

文件

数据集

镜像

项目

数据库

公开

蛋白质组学入门教程（1）数据预处理流程 · 基础蛋白定量

pyOpenms

python

中文

组学

蛋白质组学

OpenMS

pyOpenmspython中文组学蛋白质组学OpenMS

guolj@dp.tech

发布于 2024-04-21

推荐镜像 :openms:0.3

推荐机型 :c2_m16_cpu

蛋白质谱定量

读取OpenMS结果文件

数据预处理

数据筛选

零值填充

蛋白质定量

TOP3

iBAQ

TOP3和iBAQ结果对比

RSD/CV 对比

标准品定量对比

©️ Copyright 2024 @ Authors
作者: guolj@dp.tech 📨
日期:2024-04-21
共享协议:本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。
快速开始:点击上方的开始连接按钮，选择 bohrium-notebook:2023-05-31镜像 和任意配置机型即可开始。

本文将以 OpenMS 的结果为基础，主要进行简单的蛋白无标定量方法介绍，包含常用的TOP3和iBAQ。
关于 OpenMS 的流程，你可以查看上一篇 Notebook 。
如果你已经具备一定的基础，且主要关注于应用侧，你应该考虑开始接触 NextFlow，例如 QuantMS

代码

文本

自己动手，丰衣足食。
——延安生产动员大会，1939年2月

代码

文本

蛋白质谱定量

代码

文本

蛋白质组学定量方法主要可以分为两大类：

标记定量
- 标记定量包括化学标记和代谢标记，前者主流方法有ICAT、iTRAQ和TMT等，后者主流方法有SILAC等。
- 在未来，我们可能会结合实测数据对基于这些标记定量方法的实验数据处理进行更深的解释。
非标记定量
- 非标记定量方法的一个显著优势是它不需要昂贵的标记物作为内标准，而样本的制备过程也相对简单。
- 由于涉及较少的操作步骤，可以有效减少人为和系统误差。
- 此外，通过在样本中加入已知浓度的标准蛋白，这种方法还可以用于蛋白质的绝对定量。
- 然而，相对于标记定量方法，非标记定量的数据分析更加复杂且难度更大，可重复性通常也较低，对仪器的稳定性和分辨率有较高的要求。
- 本篇Notebook将对常用的TOP3和iBAQ两个非标记定量方法进行阐述。

代码

文本

读取OpenMS结果文件

我在这里为你准备好了结果文件，它的产生可以见上一篇Notebook

代码

文本

[40]

# 导入库

import pandas as pd

import matplotlib.pyplot as plt

from matplotlib_venn import venn3

代码

文本

[4]

# 导入数据

consensus_df_with_prot = pd.read_csv("/root/proteomics/example_data/consensus_map.csv")

consensus_df_with_prot.head(2)

, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

	sequence	score	protein_accession	protein_count	charge	RT	mz	quality	ZY_UPS2_C3_Mouse_0_6ug	ZY_UPS2_D2_Mouse_0_6ug	ZY_UPS2_C2_Mouse_0_6ug	ZY_UPS2_C1_Mouse_0_6ug	ZY_UPS2_B3_Mouse_0_6ug	ZY_UPS2_A1_Mouse_0_6ug	ZY_UPS2_D3_Mouse_0_6ug	ZY_UPS2_B1_Mouse_0_6ug	ZY_UPS2_A2_Mouse_0_6ug	ZY_UPS2_A3_Mouse_0_6ug	ZY_UPS2_B2_Mouse_0_6ug	ZY_UPS2_D1_Mouse_0_6ug
0	IDLAVGDVVK	11.477765	Q8K1B8\|URP2_MOUSE	1.0	2	3254.861012	514.806014	0.915005	269256000.0	417071300.0	405560700.0	398971200.0	285516400.0	244054700.0	360338700.0	361681600.0	260860600.0	240820200.0	319740100.0	465238500.0
1	VMSQNFTNC(Carbamidomethyl)HTK	15.736818	P97855\|G3BP1_MOUSE	1.0	2	1492.125672	733.826388	0.961677	166461400.0	163396900.0	182838000.0	181990100.0	124401600.0	170870100.0	170593700.0	158083400.0	148514500.0	78017240.0	142878300.0	153835500.0

代码

文本

上面表格中每个表头的含义如下：

sequence：肽段的氨基酸序列，包含PTM注释。例子中的VMSQNFTNC(Carbamidomethyl)HTK的序列为VMSQNFTNCHTK，其中第九号位上的C为Carbamidomethyl修饰。
score：搜索分数，表示肽段鉴定的置信度。分数越高，鉴定的可信度越高。目前OpenMS并没有给出一个推荐的阈值，但你还是可以查看官方文档了解更多。
protein_accession：蛋白质访问号，通常指的是蛋白质数据库中的一个唯一标识符，用于标记特定的蛋白质。这与我们当初给定的搜索数据库中的蛋白质Description相关。
protein_count：表示鉴定到的该序列肽段所对应的蛋白质数量。通常用于反映一个肽段可能属于多个蛋白质的情况。与protein_accession中的数量一致。
- 你可以利用consensus_df_with_prot.query("protein_count > 1")查看protein_count > 1的情况。
charge：肽段的电荷状态。在质谱分析中，肽段离子的电荷影响其质量/电荷比（m/z），进而影响检测和分析。你可以查看这里获得更多相关信息。
RT：肽段的LC部分洗脱峰最大值对应的时间点。
mz：质量/电荷比，是质谱分析中的一个基本参数，用于描述肽段或蛋白质离子的质量与其电荷的比值。
quality：质量分数，通常用来表示肽段信号的质量，包括信噪比、峰的对称性等因素。
ZY_***：样品名，其数值即为该样品中对应肽段的定量结果（通常为面积）

代码

文本

数据预处理

代码

文本

数据筛选

代码

文本

接下来，我们看一下quality和score的数值分布情况

代码

文本

[23]

fig, axes = plt.subplots(1, 2, figsize=(6, 1), sharey=True)

consensus_df_with_prot["score"].plot.hist(bins=50, ax=axes[0])

axes[0].set_title("score")

consensus_df_with_prot["quality"].plot.hist(bins=50, ax=axes[1])

axes[1].set_title("quality")

Text(0.5, 1.0, 'quality')

代码

文本

一般地，其他软件会提供E-Value供筛选时需要，但OpenMS目前还未实现这个功能

我们将拍个脑袋，根据quality和score对数据进行过滤，实际项目进行中，我们可以根据内标蛋白/QC样品的RSD（Relative Standard Deviation，或称CV，Coefficient of Variation）或经验来决定阈值。

另外，当一条多肽与多个蛋白质相匹配时，这种情形被称作“多肽共享”或“多肽歧义”。

在利用质谱技术进行蛋白质的非标记定量分析时，这会带来特定的挑战，主要是因为无法确切知道这些多肽具体属于哪个蛋白质。

对于这种情况的处理方法主要有以下几种：

最保守分配：只有当一个多肽唯一匹配到一个蛋白质时，才将其用于定量。
分配比例：这种方法根据特定的规则将多肽的信号按照一定比例分配给各个匹配的蛋白质。比如，可以依据每个蛋白质的独有多肽丰度来计算共享多肽的贡献量。
最小化共享多肽的使用：在定量分析中优先使用独特多肽，只在必要时使用共享多肽。这种策略旨在最大程度上减少因共享多肽带来的计算复杂性和潜在误差。
统计模型：使用复杂的统计模型来估计每个蛋白质的丰度，这些模型可以考虑多肽共享的影响。例如，软件如MaxQuant中的LFQ (Label-Free Quantification) 算法，可以处理多肽共享问题，通过算法内部的优化处理来估计蛋白质的丰度。

作为入门教学，在本篇Notebook中，我们将采用最保守分配法进行数据预处理。

代码

文本

[46]

# 按quality > 0.8、score > 10和protein_count = 1过滤数据

min_quality = 0.8

min_score = 10

filtered_df = consensus_df_with_prot.query("quality > @min_quality and score > @min_score and protein_count == 1")

filtered_df.shape, consensus_df_with_prot.shape

((6836, 20), (33161, 20))

代码

文本

可以看到，这里筛选的过程使得，我们丢掉了几乎80%的数据，他们的Venn图如下

代码

文本

[47]

meet_quality = set(consensus_df_with_prot.query("quality > @min_quality").index)

meet_score = set(consensus_df_with_prot.query("score > @min_score").index)

meet_protein_count = set(consensus_df_with_prot.query("protein_count == 1").index)

venn3([meet_quality, meet_score, meet_protein_count], ["quality", "score", "protein_count"])

<matplotlib_venn._common.VennDiagram at 0x7fed763a04f0>

代码

文本

另外，更加严格地，我们只保留鉴定出的独特肽段 > 1的蛋白质

代码

文本

[69]

protein_peptide_count = filtered_df["protein_accession"].value_counts()

meet_protein_peptide_count = protein_peptide_count[protein_peptide_count > 1].index

filtered_df_more_than_one_peptide = filtered_df[filtered_df["protein_accession"].isin(meet_protein_peptide_count)]

filtered_df_more_than_one_peptide

, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

	sequence	score	protein_accession	protein_count	charge	RT	mz	quality	ZY_UPS2_C3_Mouse_0_6ug	ZY_UPS2_D2_Mouse_0_6ug	ZY_UPS2_C2_Mouse_0_6ug	ZY_UPS2_C1_Mouse_0_6ug	ZY_UPS2_B3_Mouse_0_6ug	ZY_UPS2_A1_Mouse_0_6ug	ZY_UPS2_D3_Mouse_0_6ug	ZY_UPS2_B1_Mouse_0_6ug	ZY_UPS2_A2_Mouse_0_6ug	ZY_UPS2_A3_Mouse_0_6ug	ZY_UPS2_B2_Mouse_0_6ug	ZY_UPS2_D1_Mouse_0_6ug
0	IDLAVGDVVK	11.477765	Q8K1B8\|URP2_MOUSE	1.0	2	3254.861012	514.806014	0.915005	269256000.0	417071300.0	405560700.0	398971200.0	285516400.0	244054700.0	360338700.0	361681600.0	260860600.0	240820200.0	319740100.0	465238500.0
1	VMSQNFTNC(Carbamidomethyl)HTK	15.736818	P97855\|G3BP1_MOUSE	1.0	2	1492.125672	733.826388	0.961677	166461400.0	163396900.0	182838000.0	181990100.0	124401600.0	170870100.0	170593700.0	158083400.0	148514500.0	78017240.0	142878300.0	153835500.0
2	FVDEEDGGDGQAGPDEGEVDSC(Carbamidomethyl)LR	40.109421	Q9CPW4\|ARPC5_MOUSE	1.0	2	2891.478878	1277.021152	0.960235	61894790.0	47759900.0	64873340.0	61048470.0	60498050.0	41455210.0	48406750.0	63682410.0	43125160.0	48718520.0	60900750.0	56396670.0
3	EKPQALVTSPATPLPAGSGIK	38.518372	O88271\|CFDP1_MOUSE	1.0	3	2909.676320	688.057099	0.943737	82818720.0	69078570.0	80557970.0	80324010.0	64225850.0	64915200.0	74057170.0	74447260.0	55183950.0	59126850.0	68997690.0	74162200.0
5	LDLEAWFPGSGAFR	18.670906	P26638\|SYSC_MOUSE	1.0	2	4483.495941	783.393557	0.976265	43836660.0	39589420.0	40812830.0	35405420.0	33558470.0	45752620.0	35412970.0	46204930.0	42939580.0	37579030.0	37180490.0	52378800.0
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
14238	SSEMNVLIPTEGGDFNEFPVPEQFK	26.028290	P40124\|CAP1_MOUSE	1.0	3	4354.917646	937.778026	0.802763	168539700.0	159314500.0	190462600.0	167633400.0	165573700.0	97061050.0	157201000.0	188045500.0	91055600.0	0.0	195871800.0	0.0
14247	LAGVTALSC(Carbamidomethyl)WLPLR	21.785582	P97823\|LYPA1_MOUSE	1.0	2	4460.107468	778.936559	0.807358	59122810.0	47262840.0	53875060.0	45753870.0	37983950.0	40344040.0	44332540.0	48201210.0	44635930.0	0.0	47577000.0	0.0
14248	MFIGGLSWDTTK	19.285593	Q60668\|HNRPD_MOUSE	1.0	2	4071.956379	678.337935	0.802992	216008800.0	226267900.0	210280400.0	227036000.0	191345200.0	175056200.0	0.0	221198200.0	175835800.0	165210800.0	207849600.0	0.0
14335	QAFTDVATGSLGQGLGAAC(Carbamidomethyl)GMAYTGK	48.753551	P40142\|TKT_MOUSE	1.0	2	4007.753599	1266.596595	0.800172	129932500.0	122962900.0	118945200.0	0.0	108757800.0	130031000.0	113474400.0	117755100.0	131244700.0	135655600.0	121221200.0	0.0
14338	ITGEAFVQFASQELAEK	18.519884	Q9Z2X1\|HNRPF_MOUSE	1.0	3	4331.446865	623.319650	0.807390	90952630.0	0.0	84579110.0	44385430.0	45189660.0	61535430.0	44376070.0	108048800.0	26259210.0	34415850.0	43703790.0	0.0

6205 rows × 20 columns

代码

文本

零值填充

对于检出为0的结果，我们需要对其数值进行填充。

这里我们采用Scikit-Learn中的KNNImputer

代码

文本

[150]

from sklearn.impute import KNNImputer

# 丢掉不需要的列

# 当然，你也可以用filtered_df，这会包含独特肽段仅为1的蛋白质

data = filtered_df_more_than_one_peptide.drop(columns=["score", "protein_count", "charge", "RT", "mz", "quality"]).reset_index(drop=True)

imputer = KNNImputer(

missing_values=0,

n_neighbors=5,

weights="uniform",

metric="nan_euclidean",

keep_empty_features=True,

)

imputed_data = imputer.fit_transform(data.iloc[:, 2:])

imputed_data = pd.concat([data.iloc[:, :2], pd.DataFrame(imputed_data, columns=data.columns[2:])], axis=1)

# 由于包含多个组，我们先将数据“融化”开

imputed_data = imputed_data.melt(id_vars=["protein_accession", "sequence"], var_name="sample", value_name="intensity")

代码

文本

蛋白质定量

代码

文本

由于蛋白质在蛋白酶的催化下降解本质上是一个化学过程，这个反应如下：

$n * P ro t e in ⇌ a * P e pt i d e_{1} + b * P e pt i d e_{2} + c * P e pt i d e_{3} + ...$

在我们鉴定出的结果中，一般而言， $n = a = b = c = ...$ （当然，你可以自行再验证一下）

于是，直觉上，蛋白质的浓度应当于其消化产物中肽段的浓度基本一致（虽然实际上不同肽段会因为性质差异表现出质谱检出强度的偏差，但在入门教学中我们暂时不引入过多考虑）

代码

文本

TOP3

接下来，我们采用TOP3法对蛋白质进行定量。

上述提到，不同肽段会因为性质差异，表现出质谱检出强度的偏差，即：

$O b ser v e d I n t e n s i t y = R e a l I n t e n s i t y + B ia s$

而对于检出强度较高的肽段，这个偏差对强度本身的影响较小

代码

文本

[161]

def top3(in_df: pd.DataFrame):

return in_df.sort_values("intensity", ascending=False)["intensity"].head(3).sum()

top3_result = imputed_data.groupby(["sample", "protein_accession"]).apply(top3).reset_index().rename(columns={0: "top3"})

代码

文本

简单运行上面代码，我们便获得了TOP3法的蛋白非标记定量结果，之后，我们运行完iBAQ之后再对比二者的结果

代码

文本

iBAQ

接下来，我们采用iBAQ法对蛋白质进行定量。

iBAQ（intensity-Based Absolute Quantification）是一种用于蛋白质组学定量的技术，主要用于估算蛋白质在样本中的绝对丰度。

iBAQ的原理基于蛋白质的肽段信号强度总和来估计蛋白质的绝对量。

其包括下列步骤：

对一个蛋白质的所有鉴定到的肽段的信号强度进行求和，得到该蛋白质的总信号强度。
将这个总信号强度除以蛋白质中可观测到的肽段数量（理论上可以被鉴定的肽段数量），得到iBAQ值。
iBAQ值 = 总信号强度 / 可观测肽段数量

通过比较不同蛋白质的iBAQ值，可以估算它们在样本中的相对丰度。如果有标准蛋白或已知浓度的蛋白质参与实验，还可以通过iBAQ值估算蛋白质的绝对浓度。

代码

文本

[175]

from pyopenms import AASequence, ProteaseDigestion

from Bio import SeqIO

from tqdm import tqdm

# 读入搜库时使用的数据库文件

database = SeqIO.parse("/root/proteomics/sp_mouse_ups2.fasta", "fasta")

acc_to_seq = {i.id: str(i.seq) for i in database}

# 利用OpenMS的方法获取蛋白质理论上可鉴定出的肽段数量

def unique_digest_products_num(

sequence: str,

enzyme: str = "Trypsin",

min_length: int = 6,

max_length: int = 40,

allow_missed_cleavage: int = 2

digester = ProteaseDigestion()

digester.setEnzyme(enzyme)

digester.setMissedCleavages(allow_missed_cleavage)

# 下面我们使用了一个黑魔法:=，这是Python 3.8引入的海象运算符

# 因为它很可爱，所以我们在这里用了它，并进行了强调

# 但是需要注意，它会降低代码的可读性，所以在实际工作中，你可能不会经常看到它

digester.digest(AASequence.fromString(sequence), digest_products:= [], min_length, max_length)

return len(set(digest_products))

acc_to_product_num = {

acc: unique_digest_products_num(acc_to_seq[acc]) for acc in tqdm(imputed_data["protein_accession"].unique())

}

def ibaq(in_df: pd.DataFrame):

return in_df["intensity"].sum() / acc_to_product_num[in_df["protein_accession"].iloc[0]]

ibaq_result = imputed_data.groupby(["sample", "protein_accession"]).apply(ibaq).reset_index().rename(columns={0: "ibaq"})

100%|██████████| 1086/1086 [00:00<00:00, 2485.33it/s]

代码

文本

运行上面的代码，我们便获得了iBAQ的定量结果，接下来，我们简短地欣赏一下海象后，来对比一下两个方法的定量结果

:=海象运算符

顺便推荐一个Python黑魔法手册，虽然在工程代码中我会希望你少用这些怪东西

代码

文本

TOP3和iBAQ结果对比

代码

文本

[183]

import numpy as np

results_df = top3_result.merge(ibaq_result, on=["sample", "protein_accession"])

# group为组别，repeat为重复实验的编号

results_df[["group", "repeat"]] = np.vstack(results_df["sample"].apply(lambda x: tuple(x.split("_")[2])).values)

# 当数据过多的时候（比如上亿），你可以考虑提前生成一个字典，然后用map

# sample_group_repeat = {

# i: tuple(i.split("_")[2]) for i in results_df["sample"].unique()

# }

# results_df[["group", "repeat"]] = np.vstack(results_df["sample"].map(sample_group_repeat).values)

代码

文本

RSD/CV 对比

代码

文本

[190]

def calculate_rsd(in_df: pd.DataFrame):

v = in_df[["top3", "ibaq"]]

return v.std() / v.mean()

rsd_df = results_df.groupby(["group", "protein_accession"]).apply(calculate_rsd)

代码

文本

[ ]

fig, ax = plt.subplots()

rsd_df["top3"].plot.hist(bins=50, ax=ax, alpha=0.5, label="top3")

rsd_df["ibaq"].plot.hist(bins=50, ax=ax, alpha=0.5, label="ibaq")

plt.legend()

<matplotlib.legend.Legend at 0x7fecbaa5ea10>

代码

文本

[206]

rsd_df.mean()

top3    0.121571
,ibaq    0.118506
,dtype: float64

代码

文本

可以看到，iBAQ的RSD略小于TOP3（越小越好），在更复杂的样品和更粗的筛选条件中，iBAQ的领先一般会更多。

你可以调整数据筛选阶段的阈值来试试

代码

文本

标准品定量对比

实验在样品中加入了UPS2，这是一个包含了一些的已知相对浓度蛋白质的标准品，常用来作为样品间绝对定量的内标。

在这里，我们可以根据它们的结果评估定量方法。

代码

文本

[234]

ups_amount = pd.read_csv("/root/proteomics/StandardProteins.txt", sep="\t", index_col=0)["Amount"].to_dict()

resuls_df_ups = results_df.query("protein_accession.str.lower().str.endswith('_ups')").copy()

resuls_df_ups["real_amount"] = resuls_df_ups["protein_accession"].apply(lambda x: ups_amount[x.split("|")[0]])

代码

文本

我们一般会采用非线性拟合（特定的高线性区段也可以采用线性拟合）根据内标的定量结果来定量其他蛋白

因此我们也可以简单地观察内标定量结果与真实值的Spearman相关系数来考察不同方法定量的可靠性

代码

文本

[246]

def get_corr(in_df: pd.DataFrame):

agg_df = in_df.groupby("protein_accession")[["top3", "ibaq", "real_amount"]].agg("mean")

# 当正态性得到验证后（一般没问题），你也可以将spearman换成pearson，从而考察线性相关性

return agg_df.corr("spearman").loc["real_amount", ["top3", "ibaq"]]

resuls_df_ups.groupby("group").apply(get_corr)

, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

real_amount	top3	ibaq
group
A	0.700464	0.700464
B	0.873181	0.850792
C	0.737246	0.794819
D	0.535743	0.698865

代码

文本

其中A - B - C - D四个group为逐步稀释后的样品

可以看到，在样品浓度较低的情况下，iBAQ方法显著优于top3

代码

文本

本Notebook对常用的TOP3和iBAQ进行了代码实现和阐述。随着硬件和算法的进步，非标记定量领域也一直在发展，一些新的算法也被提出，例如LFAQ、FlashLFQ等。

未来，我们或许会对各个算法进行复现和解读。 :sweat_drops:

另外，根据情况，或许也会写一些Notebook来展示MaxQuant等工具的使用。

当然，这非常取决于作者的心情，所以，你不妨通过点赞的形式催更。 :stuck_out_tongue_winking_eye:

代码

文本

pyOpenms

python

中文

组学

蛋白质组学

OpenMS

pyOpenmspython中文组学蛋白质组学OpenMS

已赞2

本文被以下合集收录

蛋白质组学系列

guolj@dp.tech

更新于 2024-05-06

2 篇1 人关注