蛋白质组学分析平台正面交锋:利用遗传学和临床特征来比较基于适配体和抗体的方法

【字体: 时间:2022年08月23日 来源:AAAS

编辑推荐:

  利用抗体或核酸适体亲和试剂进行高通量蛋白质组学分析越来越多地用于人类研究。然而,缺乏针对这些平台相对优势和劣势的直接分析。

  

摘要

利用抗体或核酸适体亲和试剂进行高通量蛋白质组学分析越来越多地用于人类研究。然而,缺乏针对这些平台相对优势和劣势的直接分析。我们评估了SomaScan1.3K的发现(N=1301试剂),SomaScan5K平台(N=4979试剂),以及Olink Explore(N=1472个试剂)分析技术在568名来自杰克逊心脏研究的成人和219名传统家族研究参与者中进行,涉及四个方面:精确性、准确性、分析广度和利用详细的临床表型和遗传数据的表型关联。在这些研究中,我们显示证据支持更可靠的蛋白质靶向特异性和更多的表型关联,而Soma平台受益于整个蛋白质组更高的测量精度和分析广度。

简介

高通量蛋白质组学分析的出现大大提高了我们研究疾病的能力,因为蛋白质不仅是疾病的介质,而且是用于诊断和指导治疗的临床生物标记物(例如,B型利钠肽和肌钙蛋白)(1).以亲和试剂为基础的特异性蛋白质的捕获和检测新技术由于其性能特点、成本和实用性,在血浆蛋白质组学中受到越来越多的关注。特别是,使用成对的核苷酸标记抗体探针(Olink)和具有慢速动力学的单链DNA适体试剂(SomaScan)的平台可以实现数千种蛋白质在高样本吞吐量下的高效复用(47).虽然与基于液相色谱-质谱(LC-MS)的方法相比,这些平台具有简化的工作流程,但其代价是降低了分子表征的特异性(8).利用这些亲和平台进行蛋白质组学分析已经在许多队列研究和临床试验中进行(1,2,915).随着研究人员开始分析这一既定工作的结果,以及越来越多的研究使用这些平台,了解现有技术的相对优势和劣势至关重要。同时,对于这些平台上数千种蛋白质中的每一种,相对于金标准的测试性能的独立验证受到成本和时间的限制。或者,将可用平台与其他平台进行比较,为高吞吐量评估提供了机会。早期的比较受到样本大小和比较时测量的蛋白质数量的限制(16,17)但确实表明了平台特性和再现性的差异。最近,更大的努力来比较这些平台(N=485个重叠样本)表明针对同一蛋白质的大量试剂之间的相关性非常差(18).虽然一些差异可以通过多种平台和蛋白质因素来解释,但缺乏对相对准确度的评估。需要在直接比较的情况下进一步描述这些平台。

杰克逊心脏研究(JHS)和传统家族研究非常适合平台比较。除了在JHS中确定的许多临床特征外,全基因组测序(WGS)在很大一部分参与者中是可用的,允许评估稀有或祖先特有的遗传变异对循环蛋白有各种影响。作为一个黑人成年群体,由于非洲血统的增加,遗传多样性更大(19,20).我们的小组先前已经描述了来自JHS的循环血浆蛋白质组的遗传结构,利用SomaScan1.3K(1301个适配子,以下简称“Soma1.3K”)平台进行发现,并利用Olink Explore(1472个探针,以下简称“Olink”)平台进行验证(21),将之前在这一领域的研究扩展到具有大量非洲血统的群体(13,2226).虽然之前的工作描述了由这些平台测量的血浆蛋白水平的遗传关联,但这些数据提供了一个直接比较这些平台的机会,而不是展示基因-蛋白质关系的发现和验证。具体地说,两个平台上的匹配数据可以通过识别影响靶蛋白测量水平的靶基因附近的变体来评估蛋白质组试剂的特异性[称为cis蛋白定量特征位点(cis-pQTLs)]。因此,我们分析了JHS参与者的一个子集(N=568)同时使用基于适体和抗体的方法,并将其性能与精确性、准确性、整个蛋白质组的分析广度和表型关联性进行比较。在传统家族研究中,我们还利用该研究中严格的临床表型,比较了219名个体的5000种蛋白质的扩增型SomaScan平台(“Soma5K”)和Olink平台。

结果

鉴于在原始Soma1.3K平台上发表了大量的蛋白质组学分析数据,我们首先比较了来自JHS的568个个体的Olink和Soma1.3K平台。平均±SD年龄为59±12岁,59%为女性,平均体重指数(BMI)为32±8kg/m2平均估计肾小球滤过率(eGFR)为83±19ml/min/1.73m2(表S1)。由于每个平台上的某些独特试剂检测相同的蛋白质或蛋白质多聚体,Olink分析包括1472个独特试剂,映射到1466个唯一的UniProt标识符(ID),而Soma1.3K分析包括1301个独特试剂映射到1297个唯一UniProt ID。平台试剂根据它们的目标UniProt蛋白进行匹配,发现591个重叠蛋白映射到602个Soma1.3K适配子和597个Olink探针(图1和表S2)。这种合并产生了616对独特的Soma1.3K-Olink试剂对。对这些平台进行了比较,特别关注重叠蛋白,涉及四个领域:精密度、准确度、分析广度和表型关联。

图1.JHS分析中每个平台识别的独特蛋白质。

Venn图描述了Olink Explore和Soma1.3K平台针对的唯一UniProt ID之间的重叠。基于UniProt目标的Olink和Soma1.3K试剂配对识别出616个唯一的试剂对。

在查看器中打开

精度:变化系数

为了评估重复蛋白质测量的精密度(即再现性),使用标准混合血浆样本测量每个试剂的变异系数(CV),这些样本包含在每个平台的每个平板上(每个平台使用不同的混合血浆)。每个平台测量每个平板88个样本,因此需要多个平板来运行所有样本:批内CV反映给定板内的精度,而组间CV反映板间的精度。如所示图2,虽然两个平台上的大多数蛋白质测量值的批间cv低于20%(Olink平台的81%,Soma1.3K平台的99%),但无论是与全平台还是重叠蛋白质相比,Soma1.3K的CVs总体较低。Soma1.3K的中位批内CV也低于Olink(10%)。如中所示图2B随着变异系数的增加,检测组间平均蛋白质水平给定百分比差异所需的样本量也会增加。

图2.批内和批间CVs。

(A)所示的CV是针对每个平台上的每种试剂。使用给定分析批次的每个平板上包含的两个标准混合血浆样本计算分析内CV,并在所有平板上取平均值。使用来自7个Olink板的14个混合血浆样品和5个Soma1.3K板的10个校准品样品(仅第1批样品)计算批间CV。每个百分位对应的CV显示在图表下方的表格中。具有重叠蛋白质靶点的试剂以深蓝色突出显示。(B)所示为每个平台的一系列曲线,显示两组之间平均蛋白质水平的差异与检测给定CV的差异所需的样本量之间的关系。每个平台的平均批间变异系数用实线表示,第5百分位变异系数和第95百分位变异系数用阴影区域的限值表示。随着变异系数的增加,检测组间平均蛋白质水平给定百分比差异所需的样本量也会增加。

在查看器中打开

精度:平台相关性和cis pQTLs

为了了解在任何一种平台上测定给定蛋白质的准确性或特异性,无需使用LC-MS黄金标准,“正交”方法可以提供支持性证据。对于少数蛋白质,我们可以将蛋白质组学测量结果与已建立的酶联免疫吸附试验(ELISA;图S1)进行比较,但这些方法仅在极少数情况下可用。当一个蛋白质被两个平台测量时,这两个平台之间的高相关性表明了准确性。所有重叠蛋白靶点的Spearman相关分布如所示图3A.K-均值聚类法支持三类试剂配对:高相关性(N=236个试剂对),介质相关性(N=173),且相关性低(N=207)。

图3Olink和Soma1.3K试剂之间的Spearman相关性,用于测量相同的蛋白质。

(A)K-意味着将相关性分为三个层次的相关性。(B)彩色条表示相关库中每个平台上具有顺式pqtl的蛋白质数量,定义为与P<1×10–5个在同源基因转录起始位点1 Mb内。

在查看器中打开

虽然不同检测方法之间的高相关性表明了特异性,但对于相关性较弱或平台间不重叠的蛋白质,我们利用WGS数据来帮助进一步了解每种试剂的特异性。如果一个给定平台的蛋白质测量值与同源基因附近的遗传变异(即cis-pQTLs)相关,这就支持了蛋白质分析的准确性。在JHS的489名参与者中,WGS是可用的,并且在本次分析中使用了一个经过验证的用于变异蛋白关联分析匹配的计算管道,该管道用于pQTL识别(21).本分析中鉴定出顺式pqtl的许多蛋白质也具有先前文献中在欧洲血统人群中鉴定的cis-pqtl:425个靶蛋白先前已知cis-pqtl,尽管这些蛋白不一定对Olink或Soma1.3K特异(表S2)。相反,我们用这种方法鉴定了373个蛋白质靶点的未知顺式pqtl。在Olink平台上的1472种试剂中,595种(40%)可以识别出顺式PQTL,而在Soma1.3K平台上的1301种试剂中,有370种(28%)属于顺式PQTLP<1×10?5(表S2)。在这个阈值下,164对试剂显示两种试剂的顺式pQTL。如果使用全基因组显著性阈值(5×10?8),1472种试剂中368种(25%)为Olink试剂,1301种(16%)Soma1.3K试剂中有206种为顺式pqtl。在这个临界值下,98个试剂对都有顺式pqtl。图3B显示匹配试剂在任一平台上的pqtl相对于它们的相关性。虽然高度相关的试剂都可能显示顺式pQTL,但相关性较低的蛋白质更可能只显示Olink试剂的顺式pQTL(表1).

集群奥林克体质量1.3KOlink和Soma1.3K都不是总计
低相关性661319109207
中等相关性36153884173
高相关性212610782236
总计12354164275616

扩展以获取更多

表1.pQTLs用于每个平台(按相关集群)。
在查看器中打开

分析广度:蛋白质分类和主成分分析

为了捕捉Olink和Soma1.3K所捕获的已知蛋白质组生物学的广度,图4显示了四种蛋白质分类系统的测量蛋白质分布。总的来说,每个平台在每个亚类中测量的蛋白质数量相似。值得注意的例外包括在Olink平台上免疫球蛋白受体超家族的扩大覆盖,以及在Soma1.3K平台上更多的丝氨酸/苏氨酸蛋白激酶。尽管靶向的蛋白质比Olink少,但名义上较大比例的Soma1.3K靶点有黑豹注释(92%对87%)。在最大的亚类中,Soma1.3K比Olink具有更多的代表性,而Olink蛋白更常被归入低频子类别(图S2)。

图4.每个平台上的蛋白质按豹蛋白分类。

在四个分类系统的前20个亚类中,每个平台上的蛋白质数量。Soma1.3K显示为红色,Olink显示为蓝色。所有子类别的分布可在图S2中查看。

在查看器中打开

虽然Olink和Soma1.3K从标准蛋白质类别中测量了相似数量的蛋白质,但我们试图以一种无监督的方式来了解捕获的生物的多样性。因此,采用主成分分析法(PCA)对整个平台进行分解。通过沿着多个正交变异轴对齐蛋白质变异,PCA捕捉统计变化。如所见图5A,前两个主成分(PCs)解释了Olink平台超过30%的总变化,而Soma1.3K平台的总变化约为15%。最终,Olink中95%的总变化是在较少的PC中解释的(图5B).为了了解某些人口学或临床因素是否能解释前两位患者,图5C显示年龄、性别和肾脏功能,由覆盖在每个平台上的前两台电脑上的eGFR进行评估。在Olink中,eGFR和age的梯度在PCs 1和2中都很明显,而只有来自Soma1.3K的PC2与eGFR和age相关。Soma1.3K-pc2与肾功能的关系体现在与该PC相关的顶层蛋白质中,其中包括胱抑素C和β2-微球蛋白(图S3),这两种已被公认的肾功能标志物(27).在这两种平台上,性行为都与pc1或pc2无关。

图5每个平台的PCA。

(A)由每个平台上前10位PC解释的总平台差异。(B)用黑色横线标记的95%方差解释总累积方差。(C)每个参与者的散点图显示他们的前2个PC,并覆盖eGFR、年龄或性别。

在查看器中打开

表型组合

蛋白质组学分析的一个主要目标是检测和理解新的疾病介质和生物标志物。目前的分析显示了许多预期的,先前描述的表型关联,包括cystatinc和eGFR(28)瘦素与体重指数(29)B型利钠肽与收缩压的关系(30)和白细胞介素-18受体1和血红蛋白A1c(31)(表S3和S4)。图6A显示了八个重要临床特征的显著关联数,在三个共同的显著性临界点,跨越每个完整平台。与Soma1.3K相比,Olink平台的试剂数量稍多,表明与每个性状的关联度更高,而不管使用的显著性阈值如何。当只考虑重叠蛋白时,Olink保持了更多的表型关联,尤其是在那些与Soma1.3K相关性较差的试剂之间(图6B).例如,当考虑207个试剂对的低相关聚类中与BMI相关的蛋白质时,106个与BMI相关的Olink试剂P<0.05,而只有44种Soma1.3K试剂。

图6.按平台划分的表型组合。

(A)每个平台上8个表型和三个不同显著性阈值的关联数。(B)协会P<0.05,相同的8个表型,但仅限于来自每个平台的重叠蛋白。这些关联显示在与Spearman相关性相同的分布上,如中所示图3动脉粥样硬化性心血管疾病;BMI,体重指数(kg/m2);eGFR,估计肾小球滤过率(ml/min/1.73 m2);FEV1,第一秒用力呼气量(L);糖化血红蛋白、血红蛋白A1c(%);收缩压、收缩压(mmHg)、总胆固醇/HDL、总胆固醇除以高密度脂蛋白胆固醇;FDR,错误发现率。

在查看器中打开

为了检验增加关联总数但不扩大相关表型中解释的总方差的蛋白质关联(这可能是测量多个高度相关的蛋白质,有时在同一个生物途径中连接的结果),我们对每个平台和性状进行单独的套索回归(表2以及图S4)。尽管测量了更多的蛋白质,基于抗体的平台并不能解释每个表型中更多的总方差,而且总的来说,Olink和Soma1.3K平台解释的总方差是相似的。

表型R2奥林克
(标准差)
R2
体质量1.3K
(标准差)
编号
蛋白质
奥林克
编号
蛋白质
体质量1.3K
身体质量
指数
0.758
(0.026)
0.718
(0.037)
152131
估计
肾小球
过滤速率
0.655
(0.058)
0.643
(0.053)
87144
血红蛋白
A1c型
0.613
(0.056)
0.55(0.075)137178
高度0.544
(0.045)
0.517
(0.038)
14399
FEV10.575
(0.052)
0.579
(0.049)
9749
总计
胆固醇/
高密度脂蛋白
0.587
(0.071)
0.596
(0.062)
6965
收缩

压力
0.217
(0.055)
0.162
(0.057)
5168
ASCVD风险
分数
0.567
(0.041)
0.535
(0.034)
8184

扩展以获取更多

表2JHS中的套索回归模型。

在JHS的568个样本中,从每个平台上的所有蛋白质中提取出8个表型的套索回归模型。模型解释的方差和达到该方差水平所需的蛋白质数量也显示了出来。FEV1,第一秒用力呼气量。高密度脂蛋白;ASCVD,动脉粥样硬化性冠状动脉风险评分。ASCVD风险评分基于合并队列方程。

在查看器中打开

Soma5K与Olink在传统上的比较

接下来,我们将分析从JHS扩展到传统家族研究,以评估我们对Soma1.3K的观察是否也适用于Soma5K平台。因此,我们用Soma5K和Olink平台分析了来自传统家族研究的219名受试者(临床特征见表S5)(图7).共有1137个蛋白质靶点重叠在两个平台上。尽管样本较小,但出现了与Soma1.3K比较相似的模式。Soma5K和Olink平台上匹配试剂之间的相关分布与Soma1.3K比较相似,尽管Spearman的相关中位数较低(Soma5K为0.35,Soma1.3K为0.44),总体分布相似(图7B).扩展的Soma5K平台提供了大量与可用临床特征相关的蛋白质分析(图7C);例如,有1044个与BMI相关,787个与总/高密度脂蛋白(HDL)胆固醇相关(而在Soma1.3K平台上分别为439和243)。当仅评估重叠蛋白靶点的临床性状关联时,模式类似于Olink和Soma1.3K的比较:基于抗体的平台总体上显示了更多的关联,尤其是在两个平台之间相关性较弱(rho<0.3)的蛋白质之间(图7D).例如,当考虑467个试剂对的低相关聚类中与BMI相关的蛋白质时,174种Olink试剂与BMI相关P<0.05,而只有122种Soma1.3K试剂。遗传性状的拉索回归分析再次表明,额外的蛋白质测量不一定会增加衍生模型中解释的方差(表S6),尽管减少样本量使这些估计不太稳定。

图7Soma5K和Olink在遗产中探索的比较。

血浆分析是在一个随机的遗传子集上进行的(N=219)。(A)两个平台之间唯一的UniProt目标之间的重叠。(B)Olink和Soma5K上重叠试剂之间的Spearman相关性。K-均值聚类将分布分为三类。(C)每个平台上所有试剂与四种表型之间的表型关联P<0.05(D)协会P<0.05,相同的四种表型,但仅限于来自每个平台的重叠蛋白。这些联系显示在与(B)中所见的Spearman相关性相同的分布上。

在查看器中打开

ELISA试剂验证

如前所述,用于蛋白质定量的高亲和力试剂平台在效率上显示出显著的提高,尽管在精确度方面有所损失。总之,上述数据表明,当试剂无法根据金标准单独测试时,与另一平台上的成对试剂的强相关性、cis pQTL的存在或与临床特征的显著关联可以突出给定试剂的准确性或价值。为了更好地描述这一点,我们选择了四种蛋白质靶点的试剂,以进一步测试一种经过验证的商业ELISA。对于每种蛋白质,两种试剂中的一种具有临床相关性或顺式pQTL(或两者兼而有之),而另一种则没有。CD97在我们的数据中显示,当用Olink试剂[β(95%置信区间)=1.06(0.81至1.31)测量时,CD97与血红蛋白A1c之间存在一种先前未知的联系,P=2.6×10?13]以及顺式pQTL,而Soma1.3K试剂没有。当用Olink试剂[β=0.017(0.006至0.027)进行测量时,间皮素与动脉粥样硬化性心血管疾病(ASCVD)风险评分呈Olink特异性的新关联,P=0.002)以及Olink的cis pQTL。热休克蛋白,70 kDa(HSP70)与体重指数(BMI)有关联[β=1.51(0.68~2.34),P=4.0×10?4].最后,Olink测定的血管生成素样3(ANGPTL3)与BMI[β=2.37(1.05~3.69)相关,P=4.7×10?4)一个先前在文献中提到的(32)以及Olink cis pQTL。

当用ELISA从HERITAGE或JHS中随机抽取60份样本中检测每种蛋白质时,具有这些临床和/或遗传相关性的试剂与ELISA有很强的正相关,而另一种则没有,这表明具有关联的试剂实际上是在测量相关蛋白(图8).此外,在ANGPTL3的情况下,适体试剂从Soma1.3K更新为Soma5K,我们进一步能够证明与ELISA和Olink试剂的相关性也得到了改善(图8E).

图8.ELISA与Olink和Soma的相关性。

在来自JHS或HERITAGE的60个随机样本中(根据样本可用性),用ELISA分析蛋白质水平,并与每个亲和力平台的测量结果进行比较。这里显示的是(A)CD97(B)间皮素(C)HSP70,和(DE)在(A)到(D)的情况下,适配子是Soma1.3K上的特色,而(E)则是在Soma5K平台上升级的一个新的ANGPTL3适配体。酶联免疫吸附法的绝对浓度显示在对数刻度轴上,而亲和试剂的测量则是对数2-变换和缩放。

在查看器中打开

讨论

对疾病蛋白质组学的更深入的理解对于未来的研究工作至关重要,而关注心血管表型的人群是迄今为止最大的利用这些平台的群体之一(2,9,13,33).蛋白质组学研究可以提高疾病预测,发现新的途径,并确定药物靶点(2,22,34).与先前受样本量限制的蛋白质组学平台比较(16)相比,我们数据的一个关键优势在于,它们为两个大型、表型良好的队列中使用最广泛的两个分析平台提供了跨多个领域的更全面的调查。利用这些数据,研究人员可以更好地解释现有的蛋白质组学数据和/或计划未来的研究,更清楚地了解每个平台的相对优势和局限性。

我们的数据有助于阐明每个平台所提供的优势。基于适配子的蛋白质测量与重复测量相比更为一致,无论是检测批内还是批间CVs,与之前的工作一致(1,4,35,36).如果使用更多的混合等离子体测量,可以改进Olink平台上的CVs;然而,当仅限于两个混合等离子体测量时,Soma1.3K平台的表现仍然优于Olink。造成这些差异的原因尚不清楚,但部分原因可能与用于Olink的极其小的样本量有关,在某些情况下,在样本可用性有限的情况下,这本身可能被视为一种优势。Olink抗体试剂有时也是多克隆的,这可能会影响精密度,但也可能使其更抗结合干扰。当使用Olink数据计划研究时,与SomaScan相比,可能需要更大的样本量或更大的蛋白质效应量来克服观察到的测量变异性。

要从蛋白质组学分析中得出强有力的生物学结论,准确性至关重要。为此,金标准的使用是最佳的,我们和其他人已经使用LC-MS验证了一小部分但很重要的平台试剂子集(1,25).在缺乏这些平台的成本/时间效益黄金标准的情况下,将这些平台相互比较并与现有的遗传学数据进行比较可以帮助确定特异性。每个平台上试剂之间的相关性显示了三个蛋白质簇的图像。在一个聚类中,两个测量值高度相关,表明两者都具有特异性。在另一个聚类中,平均相关性接近于零,这意味着平台测量的不是同一个目标,一个或两个分析可能不准确。最后,有一个明显的中间立场。我们假设这些介质相关试剂中的许多试剂测量的是同一目标蛋白,很可能是正确的,但是一个或两个平台上的试剂可能会受到与另一个蛋白质的相互作用或一些翻译后修饰的不同影响。

遗传变异为支持特异性提供了一个有用的初始正交工具。编码蛋白质的基因中或附近的遗传变异会影响血浆蛋白水平(13,2225),因此,鉴定试剂的这些顺式pqtl可以表明它们准确地针对所述蛋白质。在这项评估中,Olink占优势,因为该平台上有较高比例的蛋白质具有顺式pqtl。在低相关性的重叠蛋白质中,Olink平台显示出更多的pqtl,这表明在一个对每个平台的特异性存在不确定性的集群中,Olink更有可能与特定的蛋白质结合。此外,值得注意的是,与基于适体的试剂相比,抗体基试剂的特异性更容易通过其他生化方法得到确认。

两个蛋白质组学平台目前都在扩展:SomaScan已经提供了一个比这里评估的Soma5K更宽的7K平台。虽然Olink和Soma1.3K测量的蛋白质数量相似,但我们的PCA表明,基于适配子的平台捕获了蛋白质组中更多的统计差异。此外,Soma1.3K测量更多的蛋白激酶,这是一个特别重要的亚类,因为它们作为药物靶点的效用,尽管循环激酶在血浆中的作用还不太清楚。总之,我们的数据表明,基于适配子的平台,包括Soma5K,可以获得更广泛的统计和生物学信息。Olink平台的扩展也在进行中,应该与扩展的Somascan 7K进行比较。

PCA显示年龄和eGFR对蛋白质水平的显著影响,解释了两种平台的显著差异,尽管Soma1.3K平台的影响较小。这表明,当从肾功能不全的队列中推断结果时应该谨慎,并强调了调整这些变量的蛋白质测量值的重要性。

最终,精确性、准确性和广度会影响每个平台检测有意义的生物关联和见解的能力。相反,捕捉更多噪音而不是蛋白质丰度变化的试剂不太可能与精确测量的临床变量相关。Soma5K的广度增加了检测到的关联的数量,加上其更大的统计和生物学覆盖范围,可能为初步筛选或发现筛选提供了宝贵的优势。然而,关键的是,当只考虑重叠蛋白时,Olink平台检测到更多的相关表型之间的关联,特别是在平台间相关性较低的区域,克服了平台整体上略低的精确度。当将Olink与Soma1.3K或Soma5K进行比较时,可以观察到这种模式。这些数据,当考虑到相关性和遗传信息时,表明至少在重叠试剂中,Olink的特异性可能增加找到可靠表型关联的可能性。

然而,重要的是要注意到,更多的关联并不总能转化为更多的信息。尽管测量的蛋白质靶点较少,但早期的Soma1.3K平台能够解释几乎一样多(如果不是更多的话)感兴趣表型的总方差,这一特征可以在预后预测或评估更广泛的疾病状态方面获益。或者,多个精确识别的蛋白质标记同一个生物途径,可以增加路径分析和生物学推断的权重。首选资料取决于研究目标。未来的工作需要评估这些不断扩展和改进的平台,以确保它们的最佳应用。

我们基于ELISA的实验支持这样一个假设,即使用遗传学或表型关联来推断上述特异性或可用性是有效的。在四个蛋白质靶点上,带有顺式pQTL或表型关联的试剂也显示出与基于ELISA的检测方法的一致性,而其他试剂则没有。在我们的四个例子中,该试剂始终是基于抗体的试剂,尽管完全没有理由怀疑具有相同特性的适体不会显示出相同的模式。值得注意的是,虽然HSP70与Olink试剂有较强的表型关联,这反过来又与ELISA测量结果有较好的相关性,但Soma1.3K适配子的顺式pQTL较弱(表S2)。近距离的研究表明,chr6:32604567:G:GA实际上位于6号染色体的主要组织相容性复合体区域,我们和其他人注意到这是一个高度连锁不平衡的区域,可能干扰cis-pQTL的鉴定(21,22).我们怀疑这种变体不是HSP70的真正cis pQTL。

我们的工作有重要的局限性。我们没有从参与者样本(而不是集合样本)中进行重复测量,这将允许更精确的简历和计算组内相关性的能力,这是另一个重要的精度指标。Soma5K平台与Olink重叠的参与者数量有限,更大的样本量将提高我们观察结果的准确性。试剂特异性的测定是在不使用LC-MS直接验证的情况下推断出来的,而LC-MS仍然是“金标准”,随着试剂通过这种方法逐渐得到验证,这些结果可能会取代从这里提供的数据中得出的结论(25).由于成本和时间限制,我们无法独立确定每种试剂的检测或定量下限,尽管这些数据可从每个制造商处获得。在我们用ELISA进行的验证实验中,每种试剂的定量至少与ELISA测量的最低水平一样低。

总之,我们的数据提供了大规模血浆蛋白质组分析平台的综合比较。抗体为基础的平台似乎赋予了一种蛋白质对蛋白质边缘的特异性和表型关联,而基于适配子的方法在整个蛋白质组中显示出更高的重复性和更大的测量范围。在选择一个平台时,其他不可直接比较的因素也要考虑,例如所需的样本量、可伸缩性和成本。这两种方法都在多项研究中提供了极好的生物学见解,而且很可能会继续这样做,特别是在LC-MS分析时,尽管最近有显著的改进(37),目前无法提供必要的样本吞吐量。

材料和方法

研究批准

JHS的研究得到了杰克逊州立大学、图加洛学院和密西西比大学医学中心机构审查委员会的批准,所有参与者都提供了书面知情同意书。人类研究方案得到了华盛顿大学贝丝以色列女执事医学中心和四个传统临床中心的机构审查委员会的批准。

队列

介绍了JHS和遗产家族研究(38,39).简言之,JHS是一项基于社区的纵向队列研究,始于2000年,研究对象来自密西西比州杰克逊大都会统计区的5306名自认黑人(38).本研究包括2000年至2004年第1次访视时从568人身上采集的样本。JHS的临床特征已经被定义(40).静息血压是通过记录两次坐姿测量值来测量的,使用的是通过测量臂围选择的四种袖带尺寸之一,使用Hawksley随机零血压计。高血压被定义为使用降压药物或血压>140/90 mmHg。高血压治疗根据患者用药清单或服药自述确定。在第1次访视时使用标准静脉穿刺和实验室技术进行常规实验室测量。肾小球滤过率用慢性肾脏病流行病学协作方程估计(41).根据合并队列方程估计ASCVD 10年风险(42).汇总统计数据以平均值±标准差表示。

1992年至1997年,HERITAGE在美国和加拿大的四个临床中心进行了为期20周的分级耐力运动训练研究,共招募了763名年龄在17岁至65岁之间的黑人和白人家庭,共763名久坐不动的参与者(62%为白人)(39).本研究包括219个个体的子集,在人口统计学上代表了基线(训练前)、禁食血浆样本的整个传统队列。对遗传表型测量方法进行了描述(39).在适应安静环境至少5分钟后,使用适当大小的自动装置(Colin STBP-780,Colin Medical Instruments,San Antonio,TX)在禁食状态下测量两次静息血压,然后取平均值。标准的实验室评估是使用12小时禁食,早晨的样本。

体细胞蛋白质组学分析

在第1次访视时,在EDTA试管中收集JHS血浆样本,然后保存在?70°C冷冻机(40).蛋白质组学测量使用Soma1.3K,一个基于单链DNA适体的蛋白质组学平台,包含1305个适体(43).非人类蛋白质被排除在分析之外(N=4)最终计数为1301。样品分两批进行。

在HERITAGE,血浆样本收集在EDTA管中,并储存在?80℃,然后在三种不同浓度(40%、1%和0.05%)中稀释,并使用扩展的Soma5K平台(4979个适配子)在单个批次中进行分析。血浆样品在蛋白质组学分析前有零或一个冻融循环。

根据制造商的详细方案,使用索马斯康试剂进行分析(43).简言之,梭马干试剂是一种基于单链DNA的适体,经过化学修饰以增强与构象蛋白表位的结合。此外,适体被氟标记,以允许标准寡阵列阅读器检测。该方法通过多步骤捕获、释放和再捕获富集过程直接测量血浆中的蛋白质。血浆蛋白首先与珠状固定化适体结合。适配子结合的蛋白质然后被生物素化。适体蛋白复合物下一步通过光交联过程释放出来。然后生物素化的蛋白质与第二组链霉亲和素珠结合。经过一个洗涤步骤,适体从蛋白靶释放出来并收集。荧光团标记的修饰核苷酸使用寡阵列板读卡器定量,提供相对荧光单位读数,其与样品中蛋白质浓度成比例。在96孔板上进行分析,每个板上有85个孔专用于研究样品,11个孔用于质量控制(QCs)。QC样品包括来自一个“池”的七个“校准品”血浆样品,制造商使用这些样品评估批内CV并在实验中进行标准化;从一个不同的“QC”血浆池中采集的四个样本用于评估跨平板的批间CV。对样本数据进行标准化处理,以消除寡阵列读取器集中的杂交变异,然后对所有样本进行中值归一化,以消除运行中的其他分析偏差,最后进行校准,以消除各次测试之间的分析差异。样本是日志2-转换并缩放到平均值0和标准差1。如果样品分批运行,则在批内完成,这在JHS中是这样,但不是HERITAGE。异常值分析采用主成分分析法(见下文);未发现异常值。

Olink探索蛋白质组学分析

在JHS的一个批次和两个批次的N=88和N=121 in HERITAGE,使用Olink Explore panel(Olink Proteomics AB,Upsala,Sweden),根据制造商的说明,使用单独的等分试样。介绍了用于Olink协议的近距离扩展分析技术(5),并且Olink可以使用每个样本的2.8μl进行分析。简单地说,成对的寡核苷酸标记抗体探针与它们的靶蛋白结合,如果两个探针靠近,寡核苷酸以成对的方式杂交。DNA聚合酶的加入会导致一个邻近依赖的DNA聚合事件,为每个特定抗原生成一个独特的双链DNA条形码。随后使用下一代测序(Illumina NovaSeq)检测并量化产生的DNA序列。然后使用内部扩展控制和平板控制对数据进行质量控制和标准化,以调整运行内和运行间的变化。最终的分析结果以标准化蛋白表达(NPX)值表示,即对数2-样品分析计数与延伸对照计数的转换比率;值越大,蛋白质表达越高。培养、延伸和扩增的内部控制包括在每个板上。离群值分析采用主成分分析法;在所有的JHS分析中移除了两个样本N=本研究的568。遗产分析中没有排除样本。所有分析验证数据(检测限、批内和批间精密度数据等)均可在制造商网站上获取(www.olinkexplore.com网站).

蛋白质靶点配对平台试剂

蛋白质靶点在这里通过它们的UniProt ID来识别(www.uniprot.org),它唯一识别肽序列。由于蛋白质通常存在于多聚体中,一些亲和试剂针对多个单体蛋白。相反,在这两种平台上,都存在多个试剂针对同一蛋白质的情况。因此,如果每个平台上的试剂针对同一个UniProt ID,则将它们配对以进行直接比较。这些试剂被标识为“重叠”

比较CV

虽然Soma1.3K平板包括用于计算CV的多个复制品(见上文),但为了进行此处所述的直接比较,Soma1.3K平台上的CV计算仅限于每个平板上的前两个QC样品,以匹配Olink平板上的混合血浆样品数量。使用每个平板上的两个标准混合血浆样本计算分析内CVs,然后在所有平板上进行平均。使用来自Olink的14个混合血浆样品(七个平板中各两个)和来自Soma1.3K的10个混合血浆样品(五个平板各两个,仅第1批样品)计算分析间CV。测定每个平台的中值CV,以及10、25、75和90%的CV。因为Olink NPX值是log2-转换后,使用Olink推荐的方程式计算CV:个人简历=e(自然对数(2)×σ下一个Px)2?1与Soma1.3K的CV=σ÷μ相比。

匹配试剂的相关性

对于每个平台上针对相同UniProt蛋白的试剂,使用log计算Spearman相关性2-转换和缩放测量。K-用均值聚类法识别相关亚组。在elbow方法的基础上创建了三个簇。

基因分型和插补

前面已经描述了JHS中的WGS(44,45).本研究包括华盛顿大学西北基因组中心测序的精确医学转组学(TOPMed)项目冷冻6的参与者。样本接受>30×WGS。vt基因型呼叫(46)质量控制是由密歇根大学信息学资源中心进行的(44).

JHS中WGS的关联分析

对数转换和标度(平均值=0和SD=1)Soma1.3K测量值在年龄、性别、批次和祖先1到10的PC上进行了残差化,这是通过遗传估计和推断在结构化样本中确定的(47).然后对得到的残差进行反标准化。Olink蛋白的测量进行了相同的标准化,但不需要对批次进行调整。这些数值和遗传变异之间的关联性通过线性混合效应模型进行测试,该模型根据年龄、性别、遗传关系矩阵和PCS1到10进行调整,使用全基因组复杂性状分析(GCTA)软件包(版本1.93.2beta/gcta64)中实现的fastGWA模型进行测试(48).对协变量进行重复调整,以减少I型误差,提高统计能力(49).次要等位基因数少于5个的变异被排除在分析之外。

识别cis PQTL

Cis-pqtl被定义为与蛋白质测量相关的变体,位于靶蛋白同源基因转录起始位点的1兆碱基(Mb)内。AP阈值设置为1×10?5考虑到全基因组显著性占30亿个碱基,将全基因组显著性调整到2-Mb窗口可得到5×10?8×(3×10)9/2×10个6)=7.5×10?5因此,1×10?5是一个保守的阈值。

在物候扫描仪中识别先前识别的顺式pqtl

为了确定pqtl以前是否未知,我们使用了用于R(50,51).对于以上识别的每个蛋白位点关联,我们将该位点分成1 Mb或更少的片段(如有需要,可通过PhenoScanner应用程序编程接口进行最大允许)。结果区域被传递给R中的phenoscanner函数,参数如下:build被设置为“38”P值为1×10?5,catalog设置为“pQTL”,代理设置为“None”(查询日期:2022年4月5日)。为了补充表型扫描仪,我们回顾了使用梭马干或Olink鉴定血浆蛋白质组的遗传结构的其他研究的文献,我们发现有三个不在现象扫描仪中(2,13,25).这些研究的结果采用与上述相同的标准。

用黑豹注释蛋白质

黑豹分类系统(http://pantherdb.org/)使用每个平台覆盖的完整的UniProt id对每个蛋白质进行注释,并显示每个平台上每个类别的蛋白质计数。类别是根据来自任一平台的蛋白质总数排列的。

主成分分析

日志后2在每个平台上对测量值进行转换和缩放,以获得上述正常值,通过替换该蛋白质的平均值来估算Olink平台上的缺失值(占所有测量值的0.2%)。Soma1.3K数据中没有缺失值。PCA使用R4.0.2中的“tidymodels”包在每个完整平台上执行(奥地利维也纳)。确定了每个PC解释的百分比变化以及解释95%平台变化的PC数量。

临床性状相关性

临床特征(因变量)与对数相关分析2-用线性回归法测定每个平台上的转化蛋白和标度蛋白(自变量)。模型根据年龄和性别进行了调整。Soma1.3K蛋白模型也进行了批量调整。Lasso模型适用于年龄、性别和批次的各性状平台组合(JHS中Soma1.3K),并将所有蛋白质输入模型。通过重复五次五次交叉验证,确定了最小综合均方误差的调谐参数。

针对ELISA的验证

根据酶联免疫吸附试验(ELISA)的有效性和一种蛋白质试剂具有顺式pQTL和/或表型关联,而另一种试剂没有的标准,选择了四种蛋白质(ANGPTL3、CD97、HSP70和间皮素)。在样本可用性允许的情况下,从JHS或HERITAGE或两者中随机选择60个样本,并使用商用试剂盒通过ELISA测定蛋白质水平。ANGPTL3(#EH29RB)和HSP70(#BMS2087)的试剂盒来自Thermo Fisher Scientific,CD97(#ab213763)和间皮素(#ab216168)的试剂盒来自Abcam。根据制造商的说明,在缓冲液中连续稀释蛋白质标准曲线。计算了60个样本中ELISA与Olink、ELISA与Soma、Soma与Olink的Spearman相关系数rho(ρ)。对于在传统样本中测量的蛋白质,适配子测量来自于Soma5K平台,除了ANGPTL3在Soma5K平台上有更新的适配子外,使用与Soma1.3K平台上相同的适配子。因此,在JHS(Soma1.3K)和传统(Soma5K)中进行ANGPTL3 ELISA测定,以进行比较。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号