-
生物通官微
陪你抓住生命科技
跳动的脉搏
直逼生命科学前沿
【字体: 大 中 小 】 时间:2002年07月04日 来源:
编辑推荐:
生物信息学作为当今生命科学研究最重要的平台技术,其两大主要任务,即发现致病基因、阐明生命发育进化规律和对海量数据的收集、整理已经逐渐逼近生命科学研究的纵深,并开始有所收获,正在成为后基因组时代生命前沿科学研究中解析海量数据的最佳工具。
近年来,生命科学在人类基因组研究的热潮中得到了飞速的发展,并由此产生出了海量信息。以生命科学和信息学相结合为特征的生物信息学作为一把跨学科融合而产生的“利刃”,成为后基因组时代生命前沿科学研究中解析海量数据的最佳工具。6月28日至30日,“第二届中国生物信息学大会”在北京举行,与会百余位专家的精彩报告向人们强烈地传递着这样一个信号,生物信息学作为当今生命科学研究最重要的平台技术,其两大主要任务,即发现致病基因、阐明生命发育进化规律和对海量数据的收集、整理已经逐渐逼近生命科学研究的纵深,并开始有所收获。
由单一到复杂
中国科学院院士、中国科学院副院长陈竺在向大会的致辞中说,人类基因组计划所有工作都涉及到大量数据的处理工作,生物学已不再是仅仅基于试验观察的科学,理论和计算将越来越发挥巨大的作用。海量数据必须通过生物信息学的手段进行收集、分析和整理后,才能成为有用的信息和知识,才能再加以传播应用,人类基因组计划首次为生物信息学创造了施展身手的巨大的空间,它已经深入到生命科学的方方面面。
近年来,随着复杂疾病研究的深入开展,人们越来越认识到目前单基因病分析方法的局限性,越来越多的研究人员开始从基因的相互关系着手研究复杂疾病,更多地关注多个基因的组合与复杂疾病间的相互关系。
清华大学生物信息研究所计宏凯等发现,由于种种原因,研究人员经常会在选择用于研究的基因的时候遗漏一部分与致病相关的基因。但是如果致病基因的作用具有累加性,则在部分致病相关基因缺失的情况下,仍有可能准确地找到致病相关基因。候选基因组合中的基因数目并非越多越好,但也并非越少越好,最佳数目取决于样本数和基因缺失比率。因此研究中事先指定基因组合中的基因数目并不合理,特别是孤立地研究单个基因与复杂疾病的关系往往不是最优选择,并经常会导致信息利用的不充分。他们同时还提出了一种新的基于SNPs数据的用于研究复杂疾病和对疾病进行亚型分类的方法,这一研究方法可以在小样本条件下充分利用已有的信息资源,算法计算复杂度降低。
目前我国有关多基因病因分析已取得一定进展。在食管癌的研究方面,中国医学科学院肿瘤研究所应用信号处理等手段并结合遗传算法来寻找食管癌中区分肿瘤组织和正常组织的最有效的基因组合,研究中已经筛选得到三大类55个已知功能的基因。从肿瘤的生物特性来看,肿瘤的出现意味着细胞失去自身应有的形态结构和功能、加速分裂以及产生局部的免疫反应,而这三类基因在肿瘤组织中都出现了异常的表达,说明食管癌的发生并非单纯某一类基因的作用,这一发现对进一步从调控通路的角度来分析基因之间的关系和它们对肿瘤发生、发展的影响等都具有重要的指导意义。精神分裂症作为一种多基因遗传病,其主要临床表现为大脑功能在认知、情感和社会交往方面的混乱和困难,目前有关精神分裂症的分子病理研究仍然是个空白。中国科学院上海生命科学中心等单位的科研人员通过大规模测序,可以发现不少精神分裂症基因的异常表达,如果把所有相关的基因、相应的SNP、基因表达状况、蛋白质功能状态以及临床治疗等信息置于细胞的信号传导系统图中进行比较和分析,那么将在很大程度上降低分析的难度。这项研究将为治疗精神分裂症的药物设计提供新的思路。
共享数据资源
中国科学院院士强伯勤在大会上说,生物信息学的诞生不仅将进一步推动生命科学的发展;而且它也是以基因组为基础的药物创新和开发成功的关键。基于cDNA序列测序所建立起来的EST数据库纪录已达数百万条,在这些数据基础上派生、整理出来的数据库已达500余个,这种科学数据的急速和海量积累在人类的科学研究历史中是空前的。数据并不等于信息和知识,但却是信息和知识的源泉,关键在于如何从中挖掘和利用它们。
20世纪90年代以来,生命科学和生物技术飞速发展,人类基因组和小鼠、水稻等其他模式生物基因组计划的实施使分子生物学数据大量积累。核酸序列数据库的数据量已接近180亿,包括病毒、细胞器在内的已测定的基因组总数已超过1000个。面对如此巨大的数据量和纷杂的数据结构,科学家们越来越迫切地认识到只有合理整合和充分利用各种数据资源,才能最终揭示出错综复杂的生物学规律。目前,能够有效管理多种类型数据资源、整合常用数据的分析工具不很多,比较成功的有欧洲生物信息学研究所开发的SRS系统,澳大利亚新南威尔士大学开发的基于XML数据库管理系统(ORDBMS)。
北京大学生物信息中心高歌等自行开发了基于象——关系型数据库(ORDB)管理系统的生物数据管理和分析平台,该数据库综合了传统关系型数据库和面向对象技术的优点,该系统整合了一些生物信息的常用程序,为将来不同格式的生物数据库资源共享提供了统一的接口。
智能化、动态地获取有效的生物信息已经成为众多生物信息学工作者所共同关注的问题,随着人类基因组计划及其它多个物种基因组计划的陆续展开,生物数据和生物信息呈现出急剧膨胀甚至是爆炸般的递增方式。能否掌握最新的科学文献、能否获取所关注的最新的基因序列和蛋白质序列已经成为本领域的关键问题之一。
在当前生物信息学研究中,由于未曾及时检索Medline文献,研究人员正在研究的课题的相关文献早已经发表公布,在新基因克隆和新蛋白的功能研究等的研究方面,研究人员往往会遇到自己所关心的基因序列和蛋白质序列已经被他人公布而自己并不知晓的尴尬状况。因此,急需开发一种智能化、动态的生物信息搜索引擎,将研究人员所关心的信息实时地传递给用户。对此军事医学科学院放射医学研究所张成岗等采用跨平台网络编程技术,开发了一套实用的生物信息学数据检索及分析系统(DRANS),该系统能够根据用户所指定的检索要求自动跟踪国际范围内新出现的数据,并将这些信息在24小时之内通过各种方式通知用户。
真核基因剪接
真核基因表达调控是生命科学研究的前沿和热点,它将有助于进一步阐明重要的生命现象,解释细胞的行为和疾病的发生机理,从而在分子水平上为疾病的诊断、治疗和预防提供科学依据和实用技术。中国科学院院士、清华大学生物信息研究所智能技术与系统国家重点实验室主任李衍达教授说,基因的调控表达很多是在mRNA水平上进行的,因此RNA的剪接在真核基因表达调控中起着十分重要的作用,它决定了哪些序列可以表达,它对于细胞的表型多样化和蛋白质结构与功能的研究具有重要的意义。
李衍达院士说,初步研究表明,选择性剪接与非选择性剪接在机制上很可能没有本质的区别,即选择性剪接是非选择性剪接的一种简并形式;在真核基因的剪接过程中,可能存在一种“粗定位-细定位”的过程;选择性剪接确有其生物学上的功能,即使删去一小段肽链它也使蛋白质局部二级结构产生明显变化,从而改变其功能;利用计算分子生物学以及多层次的综合分析方法,可能对了解基因组、转录组与蛋白质组的机制与功能产生越来越大的影响。
中国科学院院士、北京生物工程学会理事长吴旻在接受记者采访时表示,生物信息学无论是在生物医药科研还是开发中都具有广泛而关键的应用价值,残酷的市场竞争及其所带来的市场高度专业化分工的趋势,使得专业的生物医药开发机构不可能在自身内部解决对生物信息学服务的迫切需求,在生命科学的新世纪,生物信息学综合服务将是一个非常重要的,也是一个极具挑战性的领域。据大会透露,尽管我国生物信息学研究起步较晚,但自20世纪80年代以来,我国科学家在蛋白质结构预测、模拟和药物设计以及从信息论、密码学、几何学等角度改进DNA序列信息分析方法、建设DNA序列数据库等方面也取得了一定的进展。世纪之交,我国科学家不仅参与完成人类基因组1%测序工作,而且开展了高温真细菌、福氏痢疾杆菌等6种微生物完整基因组的大规模测序和分析工作,不久前又绘制成水稻基因组工作草图,这些都为生物信息学研究重要内容之一“完整基因组的比较研究”,即探索不同物种间的系统发育关系提供了最直接的素材。(科学时报记者潘锋)
摘自 科学时报