评估新冠变异株的流行潜力和对人适应性是新冠防控的重点和难点。军事医学研究院微生物流行病研究所的病原监测团队目前在Briefings in Bioinformatics发表了题为 “Deep learning based on biologically interpretable genome representation predicts two types of human adaptation of SARS-CoV-2 variants” 的文章,基于病毒S蛋白的二核苷酸组成性表征(DCR),建立了一套卷积神经网络(CNN)的深度学习模型来预测新冠病毒对人适应性,可以对新冠变异株进行实时预测。
[attach]3151[/attach]
研究团队在前期研究(Mol Biol Evol, 2020)基础上,提出了更精细的DCR表征方法,把病毒基因信息表征到DCR组成性空间(图1A)来分析病毒的宿主适应性。DCR在单链RNA病毒科(冠状病毒、正粘病毒、披膜病毒、布尼亚病毒、丝状病毒和黄病毒)上具有良好的线性性和可分性(图1B)。
[attach]3152[/attach]
图1 DCR表征方法及其在多种病毒上的可分性和线性性
病毒聚合酶蛋白和膜S蛋白的DNT和DCR分布与病毒宿主适应性密切相关(图2A);基于DCR建立卷积神经网络预测模型,训练后的DCR全连接层可以将冠状病毒按适应性次序区分开来(图2B)。
[attach]3153[/attach]
图2病毒DCR与其宿主适应性密切关联,经CNN训练后按适应类型次第分布
作者基于新冠以外的已有冠状病毒的DCR构建了CNN预测模型,对新冠变异株进行适应性预测。结果表明,WHO命名的Alpha变异株为高致病性、弱传播性的I类适应,而Beta、Delta、Gamma等变异株为低致病性、高传播性的II类适应。截止到文章投稿的157株高质量奥米克戎变异株序列,94.27%被预测为II类适应(图3)。
[attach]3154[/attach]
图3 Omicron变异株对人适应性预测
综上,本研究为RNA病毒的基因组特征解析提供了一种新的表征方法,并基于DCR的CNN深度学习模型来评估新发病毒的流行风险。模型能够为频繁出现的新冠变异株提供实时预测,促进当前COVID-19大流行的控制。
该研究由军事医学研究院微生物流行病研究所独立完成,李靖副研究员、吴亚男助理实验师和张森助理研究员为论文共同第一作者,李靖副研究员和姜涛研究员为论文共同通讯作者献。该研究得到国家自然科学基金项目(No. 32070166)资助。
李靖副研究员及其小组主要采用“人工智能+实验验证”的干湿结合策略从事病毒基因组的人工智能解析,预测并验证病毒基因型与其适应性、致病性等表现型的因果关系。课题组拟招收从事“实验验证”工作科研助理,欢迎感兴趣的相关专业硕士毕业生加入团队,来函咨询,lj-pbs@163.com(李靖)。
原文链接:Jing Li, Ya-Nan Wu, Sen Zhang, Xiao-Ping Kang, Tao Jiang. Deep learning based on biologically interpretable genome representation predicts two types of human adaptation of SARS-CoV-2 variants. DOI: https://10.1093/bib/bbac036.
参考文献: Li Jing, Zhang Sen, Li Bo et al. Machine learning methods for predicting human-adaptive influenza A viruses based on viral nucleotide compositions, Molecular Biology and Evolution 2020; 37: 1224-1236. DOI: https://10.1093/molbev/msz276.作者: zjhcnsd 时间: 2023-1-16 09:51
我会细细研读的。