什么是生物学 什么是生物学温度

冷眸 292
左侧宽880
左侧宽880
什么是生物学 什么是生物学温度

作者 | 谢惠民 (苏州大学数学科学学院)

来源 | 系统科学与数学,2019,39(02):158-160.


谢惠民教授




一、引言
文化革命结束之后,我于1978年从工厂考入中科院研究生院,成为关肇直先生的研究生并获得博士学位。在关先生于1982年去世后不到一年,我就离开中科院到苏州大学任教。虽说在中科院的时间不长,聆听关先生的教诲的机会也不很多,但这一段经历对我却有重大的影响。在我的心目中,关先生就是将数学理论与应用密切结合的最光辉的典范。我在苏州大学的工作期间,除了讲授数学基础课程和编写教材之外,也尽可能做一些科学研究工作。本文是我与生物学有关的工作回忆,并以此纪念关先生的诞辰一百周年。

二、起步

从1991年起,在物理学家郝柏林、朱照宣和郑伟谋的指点和帮助下,我在动力系统的复杂性方面做了一些工作[1,2]。在1999年的关先生诞辰80周年纪念会上的报告[3]就是这方面工作的一个阶段性小结。此后,随着基因组时代的来临,特别是中国承担的国际人类基因组测序计划(HGP 1998-2003)的1%工作的开展与完成,郝柏林和郑伟谋决定转向理论生命科学的研究。他们问过我的意见。我的回答很简单:“只要是自然科学,我都有兴趣”,这样就开始了我与生物学打交道的一段工作。这里一切都要从头学起。除了看一些有关的中文书,更重要的是学习阅读英文资料,例如将大英百科全书中的生物科学部分(第14卷)通读了一遍。为了进入生物学,还需要从遗传学的源头开始,即Mendel的开创性工作(在我中学的生物学课程里只有米丘林和李森科)。从中我悟到了Mendel所用的两种数学方法,用现代语言来说就是数学建模和数理统计方法。我将学习的心得体会在理论物理研究所做了一个报告,并得到彭桓武老先生的当场指导。后来我将这方面的材料作为数学应用的一个案例,写成为数学史科普著作[4]的第7章。

三、组分分析

很快我就发现,在遗传学中的研究对象与我在动力系统复杂性的工作中的研究对象有一个共同点,即都是符号序列。对于分子生物学中的核酸和蛋白质,采用粗粒化处理之后,核酸(DNA和RNA)是由4个字母(即4种核酸)组成的符号序列,蛋白质是由20个字母(即20种氨基酸)组成的符号序列。一开始遇到的就是组分分析问题。将一个给定的(有限长度的)符号序列的子序列简称为子串,能不能通过对于一定长度的子串的统计(即组分)来把握原来的符号序列?这里我悟出了这个问题与图论中的Euler回路的计数之间的联系,并和郝柏林一起写出了这方面的第一篇文章[5](工作对象为蛋白质序列)。由此开始我们做了不少工作,例如参加国际会议的论文[6](工作对象为核酸序列)。当然这还只是基础性研究。但后来郝柏林在复旦大学工作期间,从组分分析出发,在细菌亲缘树和分类学方面发展出基于细菌完全基因组、不用序列联配的组分矢量构树(CVTree)方法,得到国际生物学界的高度认可。郝柏林自己认为,这项成果是他科学生涯中影响最为深远的贡献。

四、可因式化语言

文献[1,2]中的主要数学工具是形式语言,即符号串的集合.由于我们在遗传学中的主要对象是符号序列,因此形式语言也就很自然地在我们的研究中成为重要的工具。我们发现,称为可因式化语言(factorizable language)的一类形式语言对于我们的工作特别重要。这样就开展了对这一类语言的研究。其主要结果为 Schuster 主编的一本专著[7](非线性与复杂性综论) 的第5章(pp.147-186)。

五、寻找基因的工作

前面所做的工作可以说都属于理论生命科学。真正与遗传学的实际工作有关的是在测序得到的DNA序列中如何寻找基因的问题。由于在高等生物的全基因组序列中基因只占很小的部分(对人类来说是3%),因此这是在测定基因组序列之后必须立即进行的工作,更可以说是后基因组时代的首要问题之一。我参加的是从水稻基因组序列中寻找基因的工作。这实际上是一项工程技术性质的工作,并不是理论科学研究,其目的是编写出能够寻找出基因的高质量的计算机软件,而不是以论文形式发表的理论成果。我很快发现,数学在这样的工程性质的工作中也非常有用。特别是我在文革之前就比较熟悉的动态规划知识在这里起了非常基本的作用。为了帮助参加第一线具体工作的计算机编程人员了解有关的数学工具,文献 [8-10]就是在华大基因的几次报告的讲稿。文献[11]是在一次学术性会议上的综合报告。文献[12]是这方面的一篇总结报告(作者为3位年长者和13位年轻人)。于2005年编写成功的软件称为BGF(Beijing Gene-Finder),它的各项指标在当时已经超过了国际上的同类软件。在能够用于寻找水稻基因的所有5个软件中,BGF是最好的.它不仅可以用于寻找水稻基因,也成功地用于寻找家蚕基因。

参考文献
[1] 谢惠民.复杂性与动力系统.上海:上海科技教育出版社,1994.
[2] Xie H M. Grammatical Complexity and One-Dimensional Dynamical Systems. Singapore: World Scientifc, 1996.
[3] 谢惠民.数学史赏析.北京:高等教育出版社,2014.
[4] 谢惠民.一维动力系统的复杂性分析.控制理论与应用,1999,16:141-144.
[5] Hao B L,Xie H M,Zhang S Y. Compositional representation of protein sequences and the number of Eulerian loops,2001,xxx.lanl.gov/list/physics/ 0103028.
[6] Xie H M, Hao B L. Visualization of k-tuple distribution in procaryote complete genomes and their randomized counterparts. Proceedings CSB 2002, IEEE Computer Society, Los Alamos,2002,31-42.
[7] Hao B L, Xie H M. Factorizable language: From dynamics to biology. Chapter 5 in Reviews of Nonlinear and Complexity,Vol.1, Ed.by Heinz Georg Schuste,Wiley-VCH, Weinheim,2008.
[8] 谢惠民.动态规划与隐马尔可夫模型,研究报告,2001.
[9] 谢惠民.关于隐马尔可夫模型的算法实验:一个注记,研究报告,2002.
[10] 谢惠民.关于α,和y的注记,研究报告,2002.
[11] 谢惠民.关于生命序列的几个问题(天津会议上的报告).天津,2001.
[12] Li H, Liu J S, Xu Z, et al. Test data sets and evaluation of gene prediction programs on the rice genome. J Comput. Sci.& Technol.,2005,20(4):446-453.


标签: 什么是生物学