华人新建一种基因序列比较的快速矢量方法
近日,国际著名期刊Nature子刊Scientific Reports刊登了清华大学数学系的Yongkun Li 等人的论文。该研究构建了一个新型的18维矢量方法来比较生物序列,新颖之处在于将序列某些重要的物理化学性质合并其中。该工作揭示了新方法比传统方法更快,更适合大型序列,能提供准确的进化关系,为病毒等的进化树构建提供了新的思路。 传统地,用于基因序列比较的方法都广泛地以序列对齐为基础。但是,这些方法非常耗时且内存占用率更高。因此,无序列对齐的方法近年来备受关注,最近已应用于种系发生。现行的四种无对齐法有各自的缺陷,于是研究者构建了一个18维特征矢量来显示一个DNA序列。这个矢量包含四种碱基每种的出现频率,核苷酸的平均位置和核苷酸的生物化学性质。 为验证该方法的有效性,研究者将它应用于不同的数据集,如哺乳动物线粒体基因组,病毒和细菌基因组。序列长度从10,000到几百万个碱基对。每个数据集,用新算法计算基因序列的多重编码矢量。研究者用无对齐法中的FFP法作为比较,用MEGA软件为这两种方法做种系发生,通过对哺乳动物、甲型流感病毒、人鼻病毒、埃博拉病毒、冠状病毒、细菌应用两种算法构建进化树,发现新算法速度更快,准确性更高。与Clustal W 算法相比,其不能完成59个细菌的大数据的序列对齐,而新方法仅用5.61分钟就完成了数字矢量的产生。https://mmbiz.qlogo.cn/mmbiz_png/mEe1mFCtQfS4ny1dzrHk0ic9VD5utqUJ20EuT2u0OIJTqHImTk1wLX8Vlz2Wv8wqD5uXVHN9J9goOxBMUXtMaQw/0?wx_fmt=png图1. 41个线粒体基因组序列以多重编码矢量法构建的进化树https://mmbiz.qlogo.cn/mmbiz_png/mEe1mFCtQfS4ny1dzrHk0ic9VD5utqUJ2VrfSiagvUFH0kmbhIJvA7fFGcZjLfP7VNMBNlkSN9Rpd83HOgneZH6Q/0?wx_fmt=png图2. 113个人类鼻病毒和3个HEV-C以多重编码矢量法构建的进化树 https://mmbiz.qlogo.cn/mmbiz_png/mEe1mFCtQfS4ny1dzrHk0ic9VD5utqUJ2yf9icicKrGb0xEkVq0gyUeY5Tgh731PWaGic77iaORjN6oyYTAvdDOUcKA/0?wx_fmt=png图3.埃博拉病毒属59个病毒以多重编码矢量法构建的进化树 然而,新算法也有待改进之处:一,用于种系发生的序列必须接近完整,使用部分基因组序列会导致产生不正确的进化关系;二,尽管不需要多重序列对齐,空隙会自动地插入序列以保证它们的长度相同,这会消耗大量时间。 https://mmbiz.qlogo.cn/mmbiz/nia02yQdMmJY0WuvXwibYr8ZVfiaNqW5vq3shRBldiboWaYlM9iadvW4OTKMQry90XePObBqelZznJxicZuRYLiccYsMw/0?wx_fmt=pnghttps://mmbiz.qlogo.cn/mmbiz/nia02yQdMmJY0WuvXwibYr8ZVfiaNqW5vq3Pvzczqibcahe8VO5trIQ7aBmVW7DoGsViaYOnxTOD79ZteAX137BibDFQ/0?wx_fmt=png 综上,该研究构建了一个新型18维矢量方法来比较生物序列,比传统方法更快,更适合大型的序列,能提供准确的进化关系,为病毒等的进化树构建提供了新的思路。https://mmbiz.qlogo.cn/mmbiz/nia02yQdMmJY0WuvXwibYr8ZVfiaNqW5vq37jJU5P1kjb6Lk6iaUGb24VdeTQr1oO5FPlich8d6kREibTeVnxCNAmnyQ/0?wx_fmt=png图片都不显示 下回改!
页:
[1]