近日,国际著名期刊Nature子刊Scientific Reports刊登了清华大学数学系的Yongkun Li 等人的论文。该研究构建了一个新型的18维矢量方法来比较生物序列,新颖之处在于将序列某些重要的物理化学性质合并其中。该工作揭示了新方法比传统方法更快,更适合大型序列,能提供准确的进化关系,为病毒等的进化树构建提供了新的思路。 传统地,用于基因序列比较的方法都广泛地以序列对齐为基础。但是,这些方法非常耗时且内存占用率更高。因此,无序列对齐的方法近年来备受关注,最近已应用于种系发生。现行的四种无对齐法有各自的缺陷,于是研究者构建了一个18维特征矢量来显示一个DNA序列。这个矢量包含四种碱基每种的出现频率,核苷酸的平均位置和核苷酸的生物化学性质。 为验证该方法的有效性,研究者将它应用于不同的数据集,如哺乳动物线粒体基因组,病毒和细菌基因组。序列长度从10,000到几百万个碱基对。每个数据集,用新算法计算基因序列的多重编码矢量。研究者用无对齐法中的FFP法作为比较,用MEGA软件为这两种方法做种系发生,通过对哺乳动物、甲型流感病毒、人鼻病毒、埃博拉病毒、冠状病毒、细菌应用两种算法构建进化树,发现新算法速度更快,准确性更高。与Clustal W 算法相比,其不能完成59个细菌的大数据的序列对齐,而新方法仅用5.61分钟就完成了数字矢量的产生。 图1. 41个线粒体基因组序列以多重编码矢量法构建的进化树 图2. 113个人类鼻病毒和3个HEV-C以多重编码矢量法构建的进化树 图3. 埃博拉病毒属59个病毒以多重编码矢量法构建的进化树 然而,新算法也有待改进之处:一,用于种系发生的序列必须接近完整,使用部分基因组序列会导致产生不正确的进化关系;二,尽管不需要多重序列对齐,空隙会自动地插入序列以保证它们的长度相同,这会消耗大量时间。 综上,该研究构建了一个新型18维矢量方法来比较生物序列,比传统方法更快,更适合大型的序列,能提供准确的进化关系,为病毒等的进化树构建提供了新的思路。
|