-
生物通官微
陪你抓住生命科技
跳动的脉搏
新世纪生物信息学
【字体: 大 中 小 】 时间:2001年04月15日 来源:
编辑推荐:
新生命网站全国首届生物信息学大会报道:
回顾与动态
生物信息学至今已有两大板块:一是基因组信息学;二是神经信息学(neuroinformatics)。这里仅谈及前者。
1995年Venter等人率先公布了第一个完整基因组序列(流感嗜血杆菌),最近他们又将31亿bp的人基因组序列测完,不久小鼠基因组测序和上百种微生物亦将完成。如此巨量的DNA序列信息将会深刻地改变着生物学与医药学,其中生物信息学起了不可取代的作用。
根据各方面的鉴定,尤其是国际GASP(基因组诠释评估计划)实验评估(取实验研究已达20多年的黑腹果蝇基因组的酒精脱氢酶区段作为验证的目标),至今生物信息学的采集信息与识别信息的能力如下:
全基因组测序、集装与ACEDB面向对象数据库
功能诠释的误差下限是8%
功能与结构特征的预测精度<70%
基因识别精度>90%;exon边界的识别率~50%
真核Promotor预测正确率~35%,其它调控元件几乎难辨。
进入后基因组时期,主要有两大任务:
诠释评估GASP(Genome Annotation assessment Project)
功能解析(Functional Assignment)
在这方面国内的状态相当滞后:
主要力量放在测序,且其硬、软件几乎全部“拿来”
没有独立的诠释系统
信息处理的计算生物学有待重视(例如DNA/Protein Chip必须配备合格的映像软件和实施标准化才能产业化)
“功能解析”工作仅为星星之火
在测序中,特别是全基因鸟枪测序(Whole genome shotgun sequencing),国人尚未消化,把Phrap,CAP3,TIGR甚至Celera集装软件拿来就用。现有中国博士汤海旭在与Waterman和Pevzner合作中发现历来的集装算法遵循“Overlap-layout-consensus”体制,无法根本上克服“基因组重复序列”问题。象水稻有50%的重复序列,即使采用两套独立的标记(Mark),亦无法消除重复序列扰乱集装中的重叠群判据。人基因组的重复序列更多,问题更严重。他们放弃这种体制,采用全新的算法(Eulerain Superpath),论文即将发表。这是一起生物学家与数学家良性合作的范例。国内的管理技能和合作风气仍有很大尚待改进的空间。
目前重要工作
1、 我国没有自主或独立的基因组诠释系统(annotation)。搞算法的或搞软件的大多对生物内容不太熟悉,难于帮上忙。这方面主要涉及基因识别和功能分类,尤其后者需要较好的生物学知识。
2、 基因组序列将是生物学与医药学的创新基础。蛋白质组的量度,旁系同源体数据集,直系同源体数据集,同位体(Synteny),代谢/调控网络分析,蛋白质相互作用数据库,基因表达剖面以及SNP数据库均是生物信息学家的可为之处。
3、 微生物病原体基因组的知识将给医药学和生物学提供激动人心的机遇。我们将知道在病原体中有多少个基因。同时解析病原体和宿主基因组,就能确定哪些基因对病原体生存是关键的;明白某种病原体在特定宿主中是致病的;毒性细胞素何时和如何在宿主中被激活;是否某病原体已经造化某些蛋白来妨碍宿主免疫性或诱发自免疫性;以及病原体(如结核杆菌)在潜伏期如何幸存逃避宿主免疫系统。这些信息可以有效地构建疫苗,来诱发特异的和高效的免疫力去对抗病原体,而麻烦的毒副作用达到极小。
4、 什么是功能?功能大致分为分子、细胞和表象等层次。功能分类与识别的难度在于是上下文依赖的(Content-dependent)。例如“乳酸脱氢酶”可为脱氢酶也可为眼晶体蛋白,依赖于所处的“上下文”。