系统发育树
分子进化树构建及数据分析的简介分子进化树构建及数据分析的简介 mediocrebeing, rodger, lylover[1], klaus, oldfish, yzwpf 一、引言一、引言 开始动笔写这篇短文之前, 我问自己, 为什么要写这样的文章?写这样的文章有实 际的意义吗?我希望能够解决什么样的问题?带着这样的疑惑, 我随手在丁香园 (DXY) 上以关键字“进化 分析 求助”进行了搜索,居然有 289 篇相关的帖子(2006 年 9 月 12 日)。而以关键字“进化 分析”和“进化”为关键字搜索,分别找到 2,733 和 7,724 篇相关 的帖子。 考虑到有些帖子的内容与分子进化无关, 这里我保守的估计, 大约有 3,000~4,000 篇帖子的内容,是关于分子进化的。粗略地归纳一下,我大致将提出的问题分为下述的 几类: 1.涉及基本概念。例如, “分子进化与生物进化是不是一个概念”,“关于微卫星进 化模型有没有什么新的进展”以及“关于 Kruglyak 的模型有没有改进的出现”,等等。 2.关于构建进化树的方法的选择。例如,“用 boostrap NJ 得到 XX 图,请问该怎 样理解?能否应用于文章?用 boostrap test 中的 ME 法得到的是 XXX 树, 请问与上个树 比,哪个更好”,等等。 3.关于软件的选择。例如, “想做一个进化树,不知道什么软件能更好的使用且可 以说明问题,并且有没有说明如何做”,“拿到了 16sr RNA 数据,打算做一个系统进化 树分析,可是原来没有做过这方面的工作啊, 都要什么软件”,“请问各位高手用 clustalx 做出来的进化树与 phylip 做的有什么区别”,“请问有做过进化树分析的朋友,能不能提 供一下,做树的时候参数的设置,以及代表的意思。还有各个分支等数值的意思,说明 的问题等”,等等。 4.蛋白家族的分类问题。例如,“搜集所有的关于一个特定 domain 的序列,共 141 条,做的进化树不知具体怎么分析”,等等。 5.新基因功能的推断。 例如, “根据一个新基因 A 氨基酸序列构建的系统发生树, 这个进化树能否说明这个新基因 A 和 B 同源,属于同一基因家族”,等等。 6.计算基因分化的年代。例如,“想在基因组水平比较两个或三个比较接近物种之 间的进化年代的远近,具体推算出他们之间的分歧时间”,“如何估计病毒进化中变异所 需时间”,等等。 7.进化树的编辑。例如生成的进化树图片,如何进行后续的编辑,比如希望在图 片上标注某些特定的内容,等等。 由于相关的帖子太多,作者在这里对无法阅读全部的相关内容而致以歉意。同时, 作者归纳的这七个问题也并不完全代表所有的提问。 对于问题1所涉及到的基本的概念, 作者推荐读者可参考由Masatoshi Nei与Sudhir Kumar所撰写的 《分子进化与系统发育》 (Molecular Evolution and Phylogenetics)一书,以及相关的分子进化方面的最新文献。 对于问题 7,作者之一 lylover 一般使用 Powerpoint 进行编辑,而 Photoshop、Illustrator 及 Windows 自带的画图工具等都可以使用。 这里,作者在这里对问题 2-6 进行简要地解释和讨论,并希望能够初步地解答初学 者的一些疑问。 二、方法的选择二、方法的选择 First of all, I have no intention to be offensive, please take my apology if you feel like that. I am not sure about the purpose of this draft, is it only for watering in or something else? Simply ignore my suggestions when you think it s reasonable. 首先是方法的选择。基于距离的方法有UPGMA、ME(Minimum Evolution,最小 进化法)和 NJ(Neighbor-Joining,邻接法)等。其他的几种方法包括MP(Maximum parsimony, 最大简约法) 、 ML (Maximum likelihood, 最大似然法) 以及贝叶斯 (Bayesian) 推断等方法。其中 UPGMA 法已经较少使用。 一般来讲,如果模型合适,ML 的效果较好。对近缘序列,有人喜欢MP,因为用 的假设最少。 MP 一般不用在远缘序列上, 这时一般用 NJ 或 ML。 对相似度很低的序列, NJ 往往出现 Long-branch attraction(LBA,长枝吸引现象),有时严重干扰进化树的构 建。(All tree-reconstruction s suffer from long branch attraction including ML, the situation is the worst for MP. Better mention it is not only for NJ.)贝叶斯的方法则太慢。 (MP can also be extremely slow if we have a large number of sequences because of all the possible “equally parsimonious trees”)对于各种方法构建分子进化树的准确性,一篇综述 (Hall BG. MolBiolEvol 2005, 22(3):792-802)认为贝叶斯的方法最好,其次是 ML,然 后是 MP。其实如果序列的相似性较高,各种方法都会得到不错的结果,模型间的差别 也不大。(Maybe it is worthwhile to list another two review papers, Trends in Genetics 17:262–272 (2001), Nature Rev. Genet. 4:275–284(2003). They were not branch newly published in 2005 or 2006, but they comprehensive and actually the basic ideas never changed.) 对于 NJ 和 ML,是需要选择模型的。(For distance s like NJ, the single most important thing is the distance matrix while we do not have to obtain this matrix under a specific substitution model. )对于各种模型之间的理论上的区别,这里不作深入的探讨, 可以参看 Nei 的书。对于蛋白质序列以及 DNA 序列,两者模型的选择是不同的。以作 者的经验来说, 对于蛋白质的序列, 一般选择 Poisson Correction (泊松修正) 这一模型