在过去的20年里,宏基因组学的发展极大地增加了我们对人体和环境微生物组的了解,并促进了相关数据分析技术的发展。现如今,分析宏基因组数据的方法层出不穷,这就需要我们对这些方法进行公正和全面的评估,以方便我们为自己的数据选择和设计最佳的分析流程,得到最接近真实的研究结论。CAMI (Critical Assessment of Metagenome Interpretation) 就是为了满足以上需求而发起的大型合作研究项目。目前CAMI挑战项目的第二轮也就是CAMI 2已经结束,上百位领域内的科学家参与了评估分析来自不同环境(海洋,根系,多菌株混合,临床)的长读长和短读长复杂宏基因组数据集的方法,包括几十款宏基因组组装、分箱、序列分类、物种丰度预测、病原微生物鉴别软件。这些宏基因组数据集基于约1700个新的和已知的微生物基因组以及600个新的质粒和病毒创建。CAMI 2共分析了来自76个软件的5002个分析结果。
与第一次挑战中评估的软件相比,组装软件的性能最多提高了30%,总的来讲基于短读长的组装软件中HipMer, GATB的表型比较优秀(图1)。然而,在存在多个密切相关的菌株的情况下,组装的连续性、基因组完整度和菌株召回率都有所下降。这表明大多数组装软件,有时是故意的,没有解决菌株水平的组装,导致组装更零散,菌株特异性更差。此外,基因组覆盖率、参数设置和数据预处理影响了组装质量,而不同版本的软件性能相似。大多数提交的宏基因组组装只使用了短读长,而长读长和混合组装的总体质量并不高。但是,混合组装对于难以组装的区域,如16S rRNA基因,比大多数短读长组装的更加完整。混合组装软件也较少受到样本中密切相关菌株的影响,这表明长读长有助于区分菌株。