一场关于DNA芯片技术最新进展的专家访谈

【字体: 时间:2002年01月09日 来源:

编辑推荐:

  

  

当前DNA微阵列技术已经成为学术以及工业界实验室研究高通量基因表达的常规技术,如今DNA微阵列技术提供的信息质量不断提高,其应用范围也不断扩大。微阵列分析的优势在于它能够通过同时比较一大批基因在不同组织,不同类型的肿瘤以及不同环境条件下的表达情况,从而发现基因通路和调控网络。

1月5日Bio.com主持人Robert邀请了该领域两位知名专家来一起讨论当前DNA微阵列分析中涌现出来的新平台技术及其应用。Dr. Massimi是爱因斯坦医学院cDNA微阵列实验室的主任,Dr. Nadon是加拿大Brock大学生物信息学教授,从事芯片质控和数据分析软件开发研究,以下是访谈的主要内容:

Dr. Massimi:我是爱因斯坦医学院的Aldo Massimi。五年前我从电机工程转入这个领域。当时,由于无法买到许多部件,我们决定自己制作一台仪器,我为我们实验室设计制造了点样仪和扫描仪。我现在是爱因斯坦医学院cDNA微阵列实验室的主任,这个实验室是爱因斯坦医学院微阵列研究中心,我们为三四十位研究者提供多种多样的芯片——我们大约有100多位用户。目前我们主要提供小鼠和人的芯片,每块芯片上有27,000个基因,同时也提供芯片定制服务。我们一直致力于改进平台,寻找新的实验流程和技术,以便提高微阵列实验中所得到的数据的质量。我们一直在为此努力。

Dr. Nadon:我的主要兴趣在差异表达的数据分析上面。我对如何避开由于目前微阵列实验的重复次数少而带来的问题尤其感兴趣。在软件包ArrayStat™中已经应用了某些统计方法。

Dr. Massimi:一般而言,Affymetrix的芯片与半导体芯片一样,在一种基质上合成寡核苷酸。这些芯片在出售的时候已经组装好了,可以直接进行杂交实验。他们提供多种基因组的芯片,这些芯片的使用非常广泛。当然,这种芯片的一个问题是它的费用。因此,cDNA微阵列可以作为它的补充和替代手段。cDNA微阵列是利用机器将cDNA点在涂有一层多聚赖氨酸、氨基硅烷或其他东西的玻璃介质上——这些玻璃片的大小与普通细微镜所用的载玻片差不多。从本质上讲,我们能够把DNA分子粘到介质表面,这使得每个实验室都能够自己制作芯片,用于杂交实验。

Robert:您提到费用问题。我知道Affymetrix芯片的价格已经降低了。

Dr. Massimi:哦,对,他们是降价了。自从几年前这个产品上市以来,它的价格已经下降了许多。现在的问题是你想在cDNA芯片上点什么以及消费者有多少。一般来讲,你得获得提供克隆的某种来源——购买细菌或寡核苷酸——这是获得用于点样的cDNA之前的一项预开支,还有购买技术的费用。我是生物分子研究机构协会(Association of Biomolecular Research Facilities,ABRF)的一员,我们最近对Affy和cDNA微阵列的用户进行了一次调查。听众可以访问我们的网页,看一下不同厂家的产品——点样仪,扫描仪——以及对微阵列实际用户的调查结果。

Robert:您是否认为成本是决定选择何种系统的一个重要因素?

Dr. Massimi:对这两种系统而言,建立系统的最初费用差不太多。对于Affy的系统来说,你需要购买一台扫描仪,一台计算机,软件和一套液体处理系统等等。我认为获得一套不错的系统并且使它运转起来需要150,000到200,000美元。就经常性开支而言,cDNA系统每块芯片所需的费用比较低。尤其是当你获得了一套克隆库以后,你只需扩增这个库就行了,这是一个优点。Affy的芯片也有它的优点。你对Affy芯片的每个点上的东西知道得更清楚。cDNA总有一定的差错率,这一缺点部分地抵消了它在开销上的优势。所以对究竟何种系统更好人们总有争论。这两种系统——Affy的和cDNA的——我们都用,我们把它们互为补充。研究人员可以选择其中的任何一种,或者两种都用——这要看他们的经费和具体要求,以及哪些芯片Affy可以提供,哪些自己可以做而定。这样我们在使用微阵列之前就可以进行一番认真的考虑。

Robert:如果你在一家拥有几套Affymetrix系统的大研究中心,这只是买一点芯片或者利用别人的系统的问题。但是如果你在一家小学校的小实验室里,你可能就没有办法进行选择。

Dr. Massimi:呃,对。实际上,在纽约地区,我们也是AmVeg的一部分,这是个协作组织,本地区的其他单位都可以利用我们的Affy系统进行自己的实验。所以在某些地方,人们能够用到一些设备,也就不用从头购买所有的东西。不过并不是所有的人都能享受到这一点。

Robert:在这两种系统的差别中,对我印象最深度是,与Affymetrix的系统不同,自己点样的cDNA阵列或者你从别处买来的cDNA阵列之间越来越缺乏一种统一的标准。

Robert:据我所知,Affymetrix在后期出品的芯片上将基因的不同片段放在芯片的不同地方,以此作为控制区域效应的一种手段。

Dr. Massimi:没错。技术一直都在不断的发展。与几年前相比,已经有了很大的不同,但是还有很长的路要走。但不管怎样总存在一个问题,即现在就加入还是等到其他人找到了答案之后再加入。所以存在一个何时开始进行微阵列实验的问题。

Robert:难道人们不担心质量吗?你说这是一项艺术。如果人们自己做阵列,这些阵列不可能是标准化的阵列。你相信这样的芯片吗?你如何将自己的数据和其他人用不同的平台获得数据进行比较?

Dr. Massimi:这是一个重要的问题。首先,在我们中心内部,一旦我们选择了一套基因,我们就力图保持一致性,并对同一套基因进行重复,这样利用同一套芯片的研究人员之间就有了可比性——这样我们内部的一致性就得到了保证。但是仍然可能存在发生错误,有时候我们想知道一个基因是否被正确标记或者在数据表中是否正确记录,我们就对这些PCR片段进行测序以检验这些信息的正确性,这也是一项额外的支出。但是如果你的用户很多,他们可以测定自己感兴趣的一部分基因,然后你可以将他们的数据汇总到一个数据库中,这样每个人都能够从中受益。

当然,即便如此错误总是存在的。例如在一次点样过程中,可能在一套玻片的同一个点上都没有点上样,你不可能100%的保证在每次点样过程中你想点的每个样品都能被点上。所以只有在你看到一个点上出现一种或两种颜色以后,你才知道点样是正确的,才可能得出某些结论。如果你什么也没看到,你不能说那种基因没有表达——很可能你根本就没有点上这种基因。

对cDNA芯片而言,我们一般用两种不同颜色的探针做杂交——一种是对照用的探针,一种是检测用的探针,每个探针用不同的颜色标记——或者在一个芯片上同时进行共杂交。如果在杂交过程中存在不均一情况,这种办法就可以去除这些影响。这样对照探针和检测探针之间的比值就可以作为重要的因素了——这种比值对确定表达水平具有重要的作用。使用Affy的芯片的时候,每个芯片只用一种颜色,即使这个芯片只是很小的一块区域,你也必须保证整个芯片上杂交条件的一致。只有保证条件的均一性,你才能比较不同芯片的结果,才能拿到表达差异的比值。

Dr. Nadon:关键是要确保在实验中设有重复,并尽可能重复整个实验。你所提的问题中的另一点是:微阵列实验实际上提供给我们的只是差异表达的数据,而不是绝对表达的数据,所以比较不同实验室,甚至一个实验室在不同时间、由不同技术人员获得的数据有时候也是困难的。

对不同的技术——单色,双色或同位素等等——而言,如何控制归一化系数也不一样。Aldo刚才所说的两种颜色的比值是不错的。但是还有一个潜在的问题,不同颜料的效果是不一样的,因此要对不同的颜料进行均一化,而且任意两种颜料之间的均一化系数也是不同的。例如,Cy5是一种比较亮的颜料,两种颜料之间的均一化系数还依赖于你所用的激发光的范围——这是一个非线性的均一化问题。现在有很多种方法来处理这个问题。

Robert:这是不是颜料交换(dye flipping)所解决的问题?

Dr. Nadon:对。

Robert:您能不能解释一下颜料交换(dye flipping)?

Dr. Nadon:假设你有一个对照样品,一个检测样品,对照样品用Cy3标记,检测样品用Cy5标记。如果你对不同颜料的效果有点担心,将两种标记互换一下就能解决这个问题。换句话讲,假设不论将检测样品用Cy3或Cy5标记,你发现对照和检测样品之间都存在一种差异,那么就不需要担心颜料的效果。可能存在的问题是,某些探针(这些探针因实验而异)对不同颜料的反应不同。如果你发现样品(Cy5)和对照(Cy3)之间有某些差异,但是将颜料互换之后这些差异消失了,那么你就要仔细的看看了。

Dr. Massimi:我们建议研究人员首先进行一项被我们称为“黄色检验”的测验——将相同的RNA用两种颜料标记然后杂交。杂交出来的图像应该是黄色的——这两种颜色的水平应该差不多。任何偏差都说明存在颜料差别。一般说来这都是一些点,某些基因由于某种未知的原因表现出对一种颜料的偏好性。我们认为这可能与DNA序列有关。无论如何,在开始之前要检查一下你的系统,这一点在你要做一大批实验时尤其重要。这也包括检查你的硬件,例如扫描仪,它也是给最后结果增加不确定性的一个因素。进行“黄色检验”是看基因-基因之间或者颜料-颜料之间是否有倾向性,而进行重复实验看看你的结果是否能够重复也是非常重要的,因为在杂交过程中有许多无法控制的不确定因素。实验做得漂亮,而且实验结果能够重复的人也是实验室的一份重要财产。

Dr. Nadon:确实,在所有技术中,进行自我检测是很重要的一种方法。即使只使用一种颜色,如果你在自我检测的时候从不同芯片得到的结果之间都有很多不同的话,恐怕有一些问题你得先解决一下。

Robert:所以必须要检查自己的系统,以保证这些参数都已经设置正确?。

Dr. Nadon:绝对没错。

Robert:您提到我们实际看到的只是基因与基因之间的相对水平。如果表达最低的RNA和表达最高的RNA之间有三到四个数量级的差别,我们用这些芯片进行定量分析的可能性有多大?我们能否一成不变的利用这些芯片检测所有基因,或者需要将那些表达很低的基因先分离出来,再对其进行检测?

Dr. Nadon:这里有两个问题——准确性(Accuracy)和精确性(Precision)——这两个问题常常搅在一起,有时候也可以互相替代。准确性(Accuracy)是指在平均水平上获得正确的数据,而精确性(Precision)是指获得高度可重复的数据——每次都获得同样的数据。当数据小的时候,我们观察到的随机差错就大——这些数据的重复性很低。关于准确性(Accuracy)有另外一个问题。当你接近系统检测下限的时候,数值降到了最低点,在这种时候你实际无法对这些数据定量,这通常叫做下限效应。所以如果你需要研究动态的范围,要注意你拿到的数据在定量检测范围以内。也就是说,并不是所有2倍的变化都一样,因为在数据小的时候,随机误差非常高。在进行实验的时候应该考虑到这些问题。

Dr. Massimi:我完全同意。我们在对数据进行绘图的时候发现,在数据小的时候会有对某种颜料的偏向性。如果以红色对绿色作图,你应该得到一条对角线,但是在数据最小的一段,这条对角线会偏向一侧。这是颜料本身的一种性质,也是因为噪声在信号中所占的比率越来越高。所以在处理实验数据的时候,你需要对数据进行几项处理。比如,如果你用的是cDNA阵列,由于你比较的是两个颜色,你所需要做的一件事是均一化。用一种颜料标记的RNA与用另一种颜料标记的RNA之间可能有不同。你需要拿到一份均一化的图表,这样就可以平衡数据小的时候信号中的随机误差。如果不进行均一化,比值的概念就毫无意义。如果你利用多张芯片做时间相研究,你也得应该通过多次实验对不同的芯片进行均一化。

做完均一化之后,我们就可以设定一个界限,这个界限因不同颜色而异。如果一种颜色的值太接近噪声的值,很显然这种测量值得怀疑,而整个比值也值得怀疑——即使你对其他颜色的数值很有把握。例如,你发现一个基因在一种情况下表达,在另一种情况下不表达。很显然,基因不表达的时候信号很弱。当基因表达的时候信号很强。这种情况下你可以选择怎样表述基因的开/关。但是还有一些基因的某种颜色的信号很弱,或者两种颜色的信号都很弱,你应该筛选掉这些基因,不把这些基因包括进最后的计算中。由于数学上的假象(数值非常接近零),你会得到非常奇怪——非常高或非常低——的比值。

由于存在很多不确定的因素,所以判断一种基因的表达是增高还是降低时把比值的界限设为1.1太严格了,我们通常把界限设定在比值为1的附近,比如说1.5,这样就可以认为真正的差异表达的比值高于1.5,而不是由于随机误差引起的假象。

Dr. Nadon:正如Aldo指出的那样,真正的技巧是正确的估计出这些比值的随机误差。由于多种技术上的原因,统计学家倾向于使用对数比值,但是如果你只有两次或三次重复数据,要正确估计出随机误差仍然有一定困难——一般的统计过程需要的样本数量比这大得多。所以有很多小组在试图寻找如何利用整块芯片以便更好的估计误差。当你需要处理原始的比值数据,并且要计算这些比值的平均值的时候,使用对数比值效果更好。假设你需要处理三次重复实验的比值,用对照值除以实验值和用实验值除以对照值所获得的结果会不一致,而究竟将哪一个数值作为被除数是任意选择的,但是利用对数比值则不会有这种困难——无论你用何种数据作为被除数,所得到的值都是一样的。

Dr. Massimi:对,对数比值关于零对称,所以无所谓谁除谁。

Dr. Nadon:没错。

Robert:现在,我想问一个听众提出的问题。大多数人们感兴趣的药物的靶都是一些表达相对较低的基因。今天的阵列的灵敏度如何?我们能够保证检测到所有表达的基因吗?

Dr. Massimi:很难说我们能够检测到每个基因。将RNA转变成cDNA的一步就很可能会丢掉某些低表达的基因。不过,我们认为现在的技术的灵敏度已经足够了。例如,我们现在能够做到只用100ug的总RNA作为初始材料。利用这些初始原料,我想我们已经非常接近检测出一个细胞中的单分子转录本的水平。所以我认为我们已经获得了很多信息。

我们是不是检测到了每一个单分子,我不能说。但是我们不会丢掉很多信号。我做过很多芯片,它们的信号几乎都差不多。确实有一些基因关闭了,但绝大多数是表达的。所以我认为我没有丢掉很多东西,不过我没法证明这一点。如果你对弱信号感兴趣,你可以用更多的原料做实验,看看是否有什么新的信号出现。当(原材料的量)超过某个限度的时候,你就可能检测到最微弱的信号。但是在这个限度的时候,可能很多基因的信号已经达到饱和了,不过你可以通过做多个实验以便获得整个表达范围。

Robert:所以你得把样品做几个不同的稀释度。

Dr. Massimi:对。

Robert:这是实验设计的一部分吗?

Dr. Massimi:通常我们都能找到一个稀释范围。但是有时候的问题是我们获得的原料太少了——只有1ug甚至更少量的RNA。一种解决方法是进行线性化扩增,提高总量。但是任何一种扩增都会引入误差,所以你得保证你的扩增方法可靠,而且能够重复。如果你不得不用荧光显微镜分离出单个的细胞,通常得用很长时间才能拿到足够的材料进行实验,这样你就不得不用到一些扩增手段了。

Robert:现在我们已经进行了差不多一半,先休息一下。我得介绍一下我们的赞助商,今天有两位赞助商,Operon和Integrated DNA Technologies。如果你想进行高通量的寡核苷酸合成,那么只有一个选择——Integrated DNA Technologies公司。无论你需要定制100块还是1000块平板,IDT都愿意提供服务,价格公道,供货迅速,提供完善的服务,质量绝对可靠。Operon提供一系列基于自己的革命性的Semi-mei理念的微阵列产品。他们的产品包括可以用于点样的多套寡核苷酸,用户定制的OPT,这些产品由Operon的高度专业化的研究,生物信息和合成部门共同完成。如果想获得更多的信息,用户可以垂询Operon的主页www.operon.com。您可以通过InFocus讨论区上的广告条访问Operon和IDT两家公司。

回到我们的讨论。我想我们现在可以讨论一些听众的问题。这里有一个来自Biomicro Systems的Bill Pagels的问题:“限制DNA微阵列实验的一个因素是芯片与芯片之间,人与人之间,实验室与实验室之间所获得的结果的无法重复性和不可靠性。能否在微阵列分析中加入某种标准,使得不同的实验中心和不同实验中使用微阵列的相关性更高?”

Dr. Massimi:没错,从本质上讲,这是一个重要的问题,我们也正在解决这个问题。一些用户获得的结果很好,而另一些人的结果却不好。总的来说,改进的余地还是很大的。就在不同实验室和不同研究所之间交换数据的问题而言,我想我们还有许多工作要做。对一些用户而言,Affy的芯片提供了一个统一的标准。另一种可能性是采用寡核苷酸——一套标准化的寡核苷酸,如果能够证明寡核苷酸和cDNA一样经济高效,人们就能够从同一个起点开始。这样就能够增大正确机率,使人们获得更多的可以互相比较的数据。

Dr. Nadon:所有科学中都存在这样的问题。在微阵列方面,由于数据很多,这个问题也更明显。我想这个领域正趋向于更加标准化,但是也许永远也不会达到完全标准化。

Robert:谁来制定这些标准呢?我觉得还没有一个重要的微阵列权威。

Dr. Nadon:没错。

Robert:这些公司是不是应该联合起来制定一些标准?

Dr. Massimi:大家为了盈利,最终会达成某种标准。竞争和标准化很多时候是两个极端,但是我想随着时间的推移,标准化产品的优势会越来越明显,这也会促使研究向着标准化的方向发展。

Robert:现在我想我们要稍稍改变一下话题,回到实验设计上来。请两位讲讲一项设计合理的微阵列实验中的关键所在。

Dr. Nadon:有许多要注意的地方,有些我们上面已经提到了。一个重要的概念是微阵列实验中获得表达值只是相对的,而不是绝对的。有些人正尝试使测定的表达值更加接近绝对值。例如,最近有人使用一些通用的参照。还有其他的一些方法保持不同实验室之间比值的均一。Jackson实验室的Gary Churchill小组正在进行这方面的实验。

在数据分析方面,存在均一化的问题,不同的技术之间会有差异。Berkeley的Gary Snead小组在这方面做的很好。

就建立实验而言,不同实验室的做法和原始材料等等都存在不同。另一个问题是实验中的重复。早些时候,人们把RNA样品分成小份,每次用一小份。现在的问题是:这样做就是真正的重复样品吗?现在人们根据实验不同,使用更加具有生物学意义的重复样品,你可以比较不同的动物,不同动物来源的RNA等等。所有这些都取决于你希望你的发现具有多大的广泛性。

Dr. Massimi:我赞同这种说法。一般说来,一个实验人员非常需要与一个生物信息学者——一个统计学者,一个知道如何进行数学分析的人——合作。我们发现在一般的实验中,你需要将20%的时间花在设计实验及具体操作上,另外80%的时间则花在分析数据上。如果你的实验设计得不正确,你可能在花费了大量的时间以后才认识到有些地方应该那样做。所以预先好好做一次分析可以节省以后的许多时间。

另一个问题就是,象Bob刚才提到的,结果可能会因为生物的多样性而不同,也可能因为实验过程(使用的杂交设备)不同而不同。许多人喜欢利用同样的RNA得到许多重复数据,以此证明设备运转良好。这当然很重要。但是有时候人们因为费用问题,只能够用同一批RNA做少数几次实验——称为独立性实验。但是问题是你所看到的不是生物学意义上的独立性。所以当你进行重复实验的时候,重要的是从RNA中获得生物学意义上的重复,你应该用独立的组织样本等等,这样才能看到生物学意义和实验上的变化。

Dr. Nadon:做好预先计划的想法非常重要。仅就重复次数而言,你所想得到的结果是平衡假阳性和假阴性的比例。统计学者更关心假阳性,而生物学者更关心假阴性,但真正的关键是在两者间取得平衡。重复次数越多,实验的灵敏度就越高,你也就能检测出更小的差别。但关键是确定你需要多少次重复才能发现你所感兴趣的东西。如果你已经开始实验,却发现你所做的重复不足以看到你想要的结果,这说明你的实验还不够灵敏,无法得到你想要的现象。所以计划是非常重要的。大家现在认为最有效的重复次数是三到四次重复。把重复次数从两次增加到三次,你可能会发现许多让你兴奋的结果。

Robert:最近有一篇文章,我想是Greg Gibson小组发表在Nature Genetics的,讨论的就是这个问题。

Dr. Nadon:没有一样东西能够替代真正的生物学意义上的重复,但是确实有许多统计学上的技巧。一种方法是将所有阵列上的随机误差归到一起,或利用其他技术(例如Boot-strapping)来绕过这些问题。但是,任何统计学家都会告诉你“没错,许多统计方法都很好,但是任何一种方法都不会替代好的实验设计。”

Robert:我要问我们听众的另一个问题了。这是西雅图Biomedical Research Institute的Jason Wendler提出的问题:“请概括一下统计分析微阵列数据的步骤,比如,对不同芯片均一化的最佳方法,ANOVA等等。”

所有人:哈哈哈!

Robert:我想,这是一个很直接的问题。

Dr. Nadon:现在还没有很绝对的标准,我知道很多人还在争论这些问题。我们在前面已经提到了一些。当然就标准化的问题而言,这依赖于你采用的技术以及如何获得数据,不过通过简单的画图,就象Aldo刚才提到的那样,对两种颜色的数据(Cy3对Cy5)做一个分布图,看一下图就能告诉你是否存在某些均一化的问题。一旦你发现有这样的问题,并且对数据做了均一化,那么你就很有希望获得正确的数据。将重复测量的数据平均一下,就能得到正确的表达差异值。

接下来你所关心的就是那些重复性差的点,不同的实验室以及采用不同的技术所得到的结果会有一些不同。最近一篇文章提到重复性差的点大约占到每个实验的15%。有时候我发现这个数值可能会高到20%,而有时候又会降低到2-3%。这跟实验室大有关系。统计学家把这些重复性差的数值称为逸出值,你需要将这些值除掉,因为它们会干扰挑选出的差异表达数值,甚至可能影响下游的数据挖掘工作。你必须清理数据,将这些不好的数值去掉。

这两样工作一旦完成,你就获得了均一化的数据,并且去掉了那些重复性差的点,现在你需要找出各个重复之间的随机误差,这个随机误差能够告诉你随机情况下的表达差异有多大。计算出这些估计值以后,将表达的数据和随机数据相比,你就可以看到某一个基因的表达差异情况是否超出随机范围。

做完这些以后,你就获得了表达的差异数据,这是一份处理过的数据,现在你就能接着进行下面的数据挖掘等工作了。同样,如果你在实验前进行详细的设计(试试这样做),而且进行两次以上的重复,你就能获得大量的感兴趣的比值。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:芯片|

  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号