  Eleni Aplakidou
    Eleni Aplakidou
    Institute for Fundamental Biomedical Research, BSRC "Alexander Fleming", Vari, Greece

    Department of Informatics and Telecommunications, Data Science and Information Technologies program, University of Athens, 15784 Athens, Greece
  Nikolaos Vergoulidis
    Nikolaos Vergoulidis
    Institute for Fundamental Biomedical Research, BSRC "Alexander Fleming", Vari, Greece
  Maria Chasapi
    Maria Chasapi
    Institute for Fundamental Biomedical Research, BSRC "Alexander Fleming", Vari, Greece

    Department of Informatics and Telecommunications, Data Science and Information Technologies program, University of Athens, 15784 Athens, Greece
  • Nefeli K. Venetsianou
    Institute for Fundamental Biomedical Research, BSRC "Alexander Fleming", Vari, Greece
  • Maria Kokoli
    Institute for Fundamental Biomedical Research, BSRC "Alexander Fleming", Vari, Greece
  • Eleni Panagiotopoulou
    Institute for Fundamental Biomedical Research, BSRC "Alexander Fleming", Vari, Greece

    Department of Informatics and Telecommunications, Data Science and Information Technologies program, University of Athens, 15784 Athens, Greece
  • Ioannis Iliopoulos
    Department of Basic Sciences, School of Medicine, University of Crete, 71003 Heraklion, Greece
  • Evangelos Karatzas
    Institute for Fundamental Biomedical Research, BSRC "Alexander Fleming", Vari, Greece

    European Molecular Biology Laboratory, European Bioinformatics Institute (EMBL-EBI), Wellcome Genome Campus, Hinxton, Cambridge, UK
  • Evangelos Pafilis
    Institute of Marine Biology, Biotechnology and Aquaculture (IMBBC), Hellenic Centre for Marine Research (HCMR), Heraklion, Greece
  • Ilias Georgakopoulos-Soares
    Institute for Personalized Medicine, Department of Biochemistry and Molecular Biology, The Pennsylvania State University College of Medicine, Hershey, PA, USA
  • Nikos C. Kyrpides
    DOE Joint Genome Institute, Lawrence Berkeley National Laboratory, Berkeley, CA, USA
  • 乔治·A·帕夫洛普洛斯 2
    Georgios A. Pavlopoulos
    Institute for Fundamental Biomedical Research, BSRC "Alexander Fleming", Vari, Greece

    Institute for Personalized Medicine, Department of Biochemistry and Molecular Biology, The Pennsylvania State University College of Medicine, Hershey, PA, USA

    Center of New Biotechnologies & Precision Medicine, Department of Medicine, School of Health Sciences, National and Kapodistrian University of Athens, Greece

    Hellenic Army Academy, 16673 Vari, Greece
  Fotis A. Baltoumas
    Fotis A. Baltoumas
    Institute for Fundamental Biomedical Research, BSRC "Alexander Fleming", Vari, Greece
Open Access Published: May 02, 2024 DOI: https://doi.org/10.1016/j.csbj.2024.04.060
Graphical Abstract
A. 最小进化树 - 来自 11 个果蝇物种的 Adh 序列数据 B. iTol 圆形树 - 时间采样数据的对齐,用于使用带有日期提示 (RTDT) 的 RelTime 来估计分歧时间 C. iTOL 无根树 - 时间采样的对齐使用带有日期提示的 RelTime (RTDT) 来估计分歧时间的数据。 D. Pavian E. Krona sunburst 图 - 连续 4 天皮肤微生物组样本的分类丰度 F. iTOL 矩形树 - 来自 11 种果蝇物种的 Adh 序列数据。



地球上微生物细胞的总数估计为 10 30 [
  • Turnbaugh P.J.
  • Gordon J.I.
An invitation to the marriage of metagenomics and metabolomics.
  • Rappuoli R.
  • Young P.
  • Ron E.
  • Pecetta S.
  • Pizza M.
Save the microbes to save the planet. A call to action of the International Union of the Microbiological Societies (IUMS).
],超过了我们银河系的恒星数量(约 1000 亿个)星星)。微生物在自然界中无处不在,对地球生物圈具有重大影响。从人类到植物的每一种生物体都会与环境中的微生物相互作用。然而,由于培养它们的挑战[
  • Steen A.D.
  • Crits-Christoph A.
  • Carini P.
  • DeAngelis K.M.
  • Fierer N.
  • Lloyd K.G.
  • et al.
High proportions of bacteria and archaea across most biomes remain uncultured.
  • Wade W.
Unculturable bacteria--the uncharacterized organisms that cause oral infections.
],> 98%的惊人比例在很大程度上仍未被探索。仅在人类肠道中,微生物种群估计就有 10 13 到 10 14 个微生物细胞,超过了人类细胞的数量 [
  • Kho Z.Y.
  • Lal S.K.
The human gut microbiome – a potential controller of wellness and disease.

  • Di Carlo P.
  • Serra N.
  • Alduina R.
  • Guarino R.
  • Craxì A.
  • Giammanco A.
  • et al.
A systematic review on omics data (metagenomics, metatranscriptomics, and metabolomics) in the role of microbiome in gallbladder disease.
  • Aguiar-Pulido V.
  • Huang W.
  • Suarez-Ulloa V.
  • Cickovski T.
  • Mathee K.
  • Narasimhan G.
Metagenomics, metatranscriptomics, and metabolomics approaches for microbiome analysis: supplementary issue: bioinformatics methods and applications for big metagenomics data.
]是研究微生物群落和非培养生物的关键方法。宏基因组涵盖特定环境中微生物群落的集体基因组内容,并包括所有存在的微生物的总遗传信息,包括细菌、古细菌、病毒和真核微生物,如原生动物或单细胞藻类和真菌。宏基因组分析 [
  • Nam N.
  • Do H.
  • Loan Trinh K.
  • Lee N.
Metagenomics: an effective approach for exploring microbial diversity and functions.
  • Simon C.
  • Daniel R.
Metagenomic analyses: past and future trends.
  • Chistoserdova L.
Recent progress and new challenges in metagenomics for biotechnology.
  • Navgire G.S.
  • Goel N.
  • Sawhney G.
  • Sharma M.
  • Kaushik P.
  • Mohanta Y.K.
  • et al.
Analysis and Interpretation of metagenomics data: an approach.
] 需要对直接从环境样本中提取的 DNA 进行测序和分析,无需用于分离和培养个体生物体。这种方法使研究人员能够探索整个微生物群落的遗传多样性和功能潜力。

同样,元转录组学 [
  • Shakya M.
  • Lo C.-C.
  • Chain P.S.G.
Advances and challenges in metatranscriptomic analysis.
  • Zhang
  • Thompson Y.
  • Branck K.N.
  • Yan Yan T.
  • Nguyen L.H.
  • Franzosa E.A.
  • et al.
Metatranscriptomics for the human microbiome and microbial community functional profiling.
  • Bashiardes S.
  • Zilberman-Schapira G.
  • Elinav E.
Use of metatranscriptomics in microbiome research.
] 是一个深入研究环境样本中微生物群落基因表达复杂世界的研究领域。与关注个体生物体基因表达的传统转录组学不同,宏转录组学检查给定样本中所有微生物的集体基因表达。宏转录组代表微生物在特定环境中、特定时间点产生的所有 RNA 转录本(例如 mRNA、rRNA、tRNA)的集合,并提供对微生物群落的基因表达模式和活动的深入了解。典型的宏转录组分析涉及 RNA 转录本的测序和分析,揭示哪些基因正在积极转录。宏转录组学的主要目标之一是阐明自然栖息地微生物群落内发生的功能活动和代谢过程。通过分析转录组,研究人员可以获得关于哪些基因活跃表达、它们如何受到调节以及微生物群落如何应对环境变化的宝贵见解。总体而言,宏转录组学为探索不同环境中微生物群落的功能潜力和活动提供了强大的工具,为它们在生态系统中的作用和相互作用及其对人类健康和生物技术的影响提供了宝贵的见解。


典型的鸟枪法宏基因组分析涉及以下步骤(图 1):

  • 测序:最初,研究人员对样本进行宏基因组测序,生成包含来自环境中存在的各种微生物的 DNA 片段的数据集。

  • 质量控制:检查原始宏基因组序列的质量并清除接头和引物等污染物。

  • 组装/读取映射:在此步骤中,比对短 DNA 片段(读取)以重建较长的基因组序列。使用各种组装方法将清理后的序列组装成重叠群和支架,例如从头组装(不存在参考基因组)、基于参考的组装(如果存在参考基因组)或混合组装(参考引导和部分从头组装) 。

  • 分箱和基因组重建:根据核苷酸组成、覆盖范围和其他特征的相似性,将组装的重叠群(连续 DNA 序列)分组为类似的操作分类单元。通过分箱重建的基因组通常称为宏基因组组装基因组(MAG)

  • 注释:MAG 注释有与分离基因组类似的功能和分类信息。
Fig. 1

图 1 典型宏基因组分析的不同步骤:(i) 标记基因检测和分类分配,(ii) 从头组装以生成更大的重叠群,以及 (iii) 映射到参考基因组(如果存在)。


  • 样品采集和 RNA 提取:样品从感兴趣的环境中采集,例如土壤、水或人体肠道。然后,从收集的样本中提取总RNA以捕获活跃转录的基因。

  • cDNA 合成:在此步骤中,使用逆转录将提取的 RNA 转化为互补 DNA (cDNA)。

  • 测序文库制备:在此步骤中,通常使用片段化和接头连接等方法制备 cDNA 样品的测序文库。

  • 测序:使用 Illumina 或 PacBio 等平台对准备好的文库进行高通量测序。

  • 数据预处理:与宏基因组学一样,需要进行数据预处理,例如接头序列修剪、低质量读数去除和过滤核糖体 RNA (rRNA) 序列。

  • 读取映射:将测序的读取映射到参考基因组或转录组,以识别表达的基因并量化其丰度。

  • 差异表达分析:在此步骤中,鉴定在不同条件下或不同样本之间差异表达的基因。

  • 功能注释和通路分析:在此步骤中,根据 NCBI 的 RefSeq [
    • Haft D.H.
    • Badretdin A.
    • Coulouris G.
    • DiCuccio M.
    • Durkin A.S.
    • Jovenitti E.
    • et al.
    RefSeq and the prokaryotic genome annotation pipeline in the age of metagenomes.
    ] 或 UniProt [
    UniProt Consortium
    UniProt: the universal protein knowledgebase in 2021.
    ] 等数据库对差异表达基因进行注释,以分配假定的功能以及功能差异表达的途径富集。目的是了解起作用的生物过程。

在这篇综述中,我们重点关注旨在分析和显示宏基因组数据的宏基因组可视化工具,包括 DNA 序列、功能信息和元数据。可视化在宏基因组学领域至关重要,因为它使研究人员能够了解复杂的微生物群落结构、分类组成和功能潜力。尽管已经开发了几种可视化工具来帮助研究人员探索和解释宏基因组数据,但宏基因组可视化领域仍处于起步阶段,复杂性、功能性、可扩展性和互操作性方面的挑战仍然存在。尽管如此,宏基因组可视化可以实现几个重要任务的自动化:

  • 对大量数据集进行交互式、直观的探索和可视化有助于识别数据中的模式和趋势。

  • 多个样本的比较有助于识别相似性和差异,从而增强对宏基因组数据固有的多样性和复杂性的理解。

  • 各种数据类型(包括功能、分类和元数据)的集成有助于全面理解宏基因组数据集。

  • 研究人员之间共享数据和结果可以促进更强有力的合作,并提高研究工作的可重复性。

2. 数据库和存储库

  • Dudhagara P.
  • Bhavsar S.
  • Bhagat C.
  • Ghelani A.
  • Bhatt S.
  • Patel R.
Web resources for metagenomics studies.
](表1)。其中包括标准序列档案,例如 GenBank [
  • Sayers E.W.
  • Cavanaugh M.
  • Clark K.
  • Pruitt K.D.
  • Schoch C.L.
  • Sherry S.T.
  • et al.
]、日本 DNA 数据库 (DDBJ) [
  • Tanizawa Y.
  • Fujisawa T.
  • Kodama Y.
  • Kosuge T.
  • Mashima J.
  • Tanjo T.
  • et al.
DNA Data Bank of Japan (DDBJ) update report 2022.
] 和欧洲核苷酸档案 (ENA) [
  • Cummins C.
  • Ahamed A.
  • Aslam R.
  • Burgin J.
  • Devraj R.
  • Edbali O.
  • et al.
The European Nucleotide Archive in 2021.
] 或基因组在线数据库 (GOLD) [
  • Mukherjee S.
  • Stamatis D.
  • Li C.T.
  • Ovchinnikova G.
  • Bertsch J.
  • Sundaramurthi J.C.
  • et al.
Twenty-five years of Genomes OnLine Database (GOLD): data updates and new features in v.9.
  • Chen I.-M.A.
  • Chu K.
  • Palaniappan K.
  • Ratner A.
  • Huang J.
  • Huntemann M.
  • et al.
The IMG/M data management and analysis system v.7: content updates and new features.
]、MGnify [
  • Mitchell A.L.
  • Almeida A.
  • Beracochea M.
  • Boland M.
  • Burgin J.
  • Cochrane G.
  • et al.
MGnify: the microbiome analysis resource in 2020.
  • Schmidt T.S.B.
  • Fullam A.
  • Ferretti P.
  • Orakov A.
  • Maistrenko O.M.
  • Ruscheweyh H.-J.
  • et al.
SPIRE: a searchable, planetary-scale microbiome REsource.
] 和 MG-RAST [
  • Meyer F.
  • Bagchi S.
  • Chaterji S.
  • Gerlach W.
  • Grama A.
  • Harrison T.
  • et al.
MG-RAST version 4-lessons learned from a decade of low-budget ultra-high-throughput metagenome analysis.

表 1 数据库和存储库。
 数据库名称 描述 数据类型 无障碍 用户提交


序列读取存档 (SRA)

 原始测序数据 公开访问Yes

欧洲核苷酸档案 (ENA)



DOE 系统生物学知识库 (KBase)




 生态系统 公开访问Yes

综合微生物基因组和微生物组 (IMG/M)


MGnifyArchive for exploration, and analysis, of microbiome sequencing datasetsMetagenomes, Metatranscriptomes, Amplicons, MAGsPublicly accessibleYes
Metagenome RAST (MG-RAST)Microbiome repository with a unified pipeline for automated analysis of metagenomic samplesMetagenomesRegistered usersYes
Integrated Microbial Viral Genomes

Viral genomes and metagenomesViral Genomes, Viral MetagenomesPublicly accessibleYes
NMPFamsDBNovel protein families from IMG’s metagenomes and metatranscriptomesProtein FamiliesPublicly accessibleNo
FESnov catalogCatalog reporting functionally unannotated proteins derived from MAGsProteinsPublicly accessibleNo
NIH Human Microbiome ProjectMetagenomes from human host-associated systems, such as the gut microbiomeHuman Microbiome MetagenomesPublicly accessibleNo
TerrestrialMetagenomeDBAnnotation of metagenomes obtained from soil samplesSoil MetagenomesPublicly accessibleYes
MarineMetagenomeDBAnnotation of metagenomes obtained from marine samplesMarine MetagenomesPublicly accessibleYes
HumanMetagenomeDBAnnotation of metagenomes obtained from human microbiome samplesHuman Microbiome MetagenomesPublicly accessibleYes
SPIRESearchable resource of ecosystem metadata obtained from MAGsEcosystem MetadataPublicly accessibleNo
Marine Metagenomics Portal (MMP)Collection of databases annotating marine-oriented metagenomic datasetsMarine MetagenomesPublicly accessibleNo
National Microbiome Data Collaborative (NMDC)A platform for collaboration and data sharing among researchers studying microbiomes across diverse ecosystemsMicrobiome DataPublicly accessibleYes

综合微生物基因组和微生物组 (IMG/M) 数据库是一个社区驱动的存储库,其中包含来自生命各个领域的培养和未培养微生物类群的基因组、宏基因组和宏转录组、扩增子、质粒和通过靶向测序生成的感兴趣的基因组片段[
  • Chen I.-M.A.
  • Chu K.
  • Palaniappan K.
  • Pillay M.
  • Ratner A.
  • Huang J.
  • et al.
IMG/M v.5.0: an integrated data management and comparative analysis system for microbial genomes and microbiomes.
  • Chen I.-M.A.
  • Chu K.
  • Palaniappan K.
  • Ratner A.
  • Huang J.
  • Huntemann M.
  • et al.
The IMG/M data management and analysis system v.7: content updates and new features.
]。 IMG/M [
  • Chen I.-M.A.
  • Chu K.
  • Palaniappan K.
  • Pillay M.
  • Ratner A.
  • Huang J.
  • et al.
IMG/M v.5.0: an integrated data management and comparative analysis system for microbial genomes and microbiomes.
  • Chen I.-M.A.
  • Chu K.
  • Palaniappan K.
  • Ratner A.
  • Huang J.
  • Huntemann M.
  • et al.
The IMG/M data management and analysis system v.7: content updates and new features.
] 具有完善的、持续更新的宏基因组分析流程(DOE JGI 宏基因组工作流程),允许研究人员提交自己的基因组或宏基因组数据集,并且自动执行多种类型的分析,包括基因调用、分类分配和功能注释 [
  • Clum A.
  • Huntemann M.
  • Bushnell B.
  • Foster B.
  • Foster B.
  • Roux S.
  • et al.
DOE JGI metagenome workflow.
]。因此,虽然数据库的部分内容来自其他已建立的序列存储库,例如 GenBank [
  • Sayers E.W.
  • Cavanaugh M.
  • Clark K.
  • Pruitt K.D.
  • Schoch C.L.
  • Sherry S.T.
  • et al.
] 或 SRA [
  • Kodama Y.
  • Shumway M.
  • Leinonen R.
on behalf of the International Nucleotide Sequence Database Collaboration
The sequence read archive: explosive growth of sequencing data.
],但其大部分内容源自来自用户提交的项目。与 IMG/M 类似,MGnify [
  • Mitchell A.L.
  • Almeida A.
  • Beracochea M.
  • Boland M.
  • Burgin J.
  • Cochrane G.
  • et al.
MGnify: the microbiome analysis resource in 2020.
] 是一个免费数据库,旨在归档、探索和分析微生物组测序数据集。该数据库接受用户提交的数据,并提供多功能注释管道来涵盖各种数据集类型的分析,从针对分类标记的研究(例如扩增子研究)到宏基因组和宏转录组的鸟枪测序,以及宏基因组组装基因组(MAG)。此外,MGnify 还提供了根据请求为用户提交的原始读取提供组装的选项 [
  • Mitchell A.L.
  • Almeida A.
  • Beracochea M.
  • Boland M.
  • Burgin J.
  • Cochrane G.
  • et al.
MGnify: the microbiome analysis resource in 2020.
]。最后,宏基因组 RAST 服务 (MG-RAST) 是另一个主要的微生物组存储库,也是为宏基因组样本自动分析提供统一管道的最早方法之一 [
  • Meyer F.
  • Bagchi S.
  • Chaterji S.
  • Gerlach W.
  • Grama A.
  • Harrison T.
  • et al.
MG-RAST version 4-lessons learned from a decade of low-budget ultra-high-throughput metagenome analysis.
]。 与其他数据库相比,MG-RAST对其内容施加访问限制,其数据库仅限于其注册用户。它侧重于宏基因组读数的分析以及后者与参考基因组的映射,而不是分析其他数据集类别(扩增子、组装的重叠群/支架或 MAG)。

除了 IMG/M、MGnify 和 MG-RAST 之外,还提供了几个更专业的宏基因组数据库,重点关注特定的微生物组类型。例如,IMG/VR [
  • Roux S.
  • Páez-Espino D.
  • Chen I.-M.A.
  • Palaniappan K.
  • Ratner A.
  • Chu K.
  • et al.
IMG/VR v3: an integrated ecological and evolutionary framework for interrogating genomes of uncultivated viruses.
  • Camargo A.P.
  • Nayfach S.
  • Chen I.-M.A.
  • Palaniappan K.
  • Ratner A.
  • Chu K.
  • et al.
IMG/VR v4: an expanded database of uncultivated virus genomes within a framework of extensive functional, taxonomic, and ecological metadata.
] 是 IMG/M 的一个子集,专门关注病毒基因组和宏基因组 [
  • Paez-Espino D.
  • Eloe-Fadrosh E.A.
  • Pavlopoulos G.A.
  • Thomas A.D.
  • Huntemann M.
  • Mikhailova N.
  • et al.
Uncovering Earth’s virome.
],它利用了专门的预测器重新分析 IMG/M 数据集并根据病毒基因结构和病毒特异性标记区域识别样本 [
  • Paez-Espino D.
  • Chen I.-M.A.
  • Palaniappan K.
  • Ratner A.
  • Chu K.
  • Szeto E.
  • et al.
IMG/VR: a database of cultured and uncultured DNA Viruses and retroviruses.
]。 DOE 系统生物学知识库 (KBase) [
  • Arkin A.P.
  • Cottingham R.W.
  • Henry C.S.
  • Harris N.L.
  • Stevens R.L.
  • Maslov S.
  • et al.
KBase: The United States Department of Energy Systems Biology Knowledgebase.
] 是一个可免费访问的软件和数据平台,有助于微生物、植物和群落数据的共享、集成和分析。 NMPFamsDB [
  • Baltoumas F.A.
  • Karatzas E.
  • Liu S.
  • Ovchinnikov S.
  • Sofianatos Y.
  • Chen I.-M.
  • et al.
NMPFamsDB: a database of novel protein families from microbial metagenomes and metatranscriptomes.
  • Pavlopoulos G.A.
  • Baltoumas F.A.
  • Liu S.
  • Selvitopi O.
  • Camargo A.P.
  • Nayfach S.
  • et al.
Unraveling the functional dark matter through global metagenomics.
] 托管来自 IMG 宏基因组和元转录组的新型蛋白质家族 [
  • Baltoumas F.A.
  • Karatzas E.
  • Paez-Espino D.
  • Venetsianou N.K.
  • Aplakidou E.
  • Oulas A.
  • et al.
Exploring microbial functional biodiversity at the protein family level-From metagenomic sequence reads to annotated protein clusters.
],这些蛋白质家族与任何已知的 Pfam 结构域没有任何命中或相似性任何已知的参考基因组。同样,FESnov 目录报告了源自 MAG 的功能未注释的蛋白质 [
  • Rodríguez Del Río Á.
  • Giner-Lamia J.
  • Cantalapiedra C.P.
  • Botas J.
  • Deng Z.
  • Hernández-Plaza A.
  • et al.
Functional and evolutionary significance of unknown genes from uncultivated taxa.
  • Paoli L.
  • Ruscheweyh H.-J.
  • Forneris C.C.
  • Hubrich F.
  • Kautsar S.
  • Bhushan A.
  • et al.
Biosynthetic potential of the global ocean microbiome.
],该数据库包含通过将海洋生态系统中的分离基因组与来自海水样本的重建基因组草图整合而形成的生物合成基因簇。 NIH 人类微生物组项目重点关注人类宿主相关系统的宏基因组,例如肠道微生物组 [
  • Lloyd-Price J.
  • Mahurkar A.
  • Rahnavard G.
  • Crabtree J.
  • Orvis J.
  • Hall A.B.
  • et al.
Strains, functions and dynamics in the expanded Human Microbiome Project.
]、TerrescialMetagenomeDB [
  • Corrêa F.B.
  • Saraiva J.P.
  • Stadler P.F.
  • da Rocha U.N.
TerrestrialMetagenomeDB: a public repository of curated and standardized metadata for terrestrial metagenomes.
]、MarineMetagenomeDB [
  • Nata’ala M.K.
  • Avila Santos A.P.
  • Coelho Kasmanas J.
  • Bartholomäus A.
  • Saraiva J.P.
  • Godinho Silva S.
  • et al.
MarineMetagenomeDB: a public repository for curated and standardized metadata for marine metagenomes.
] 和 HumanMetagenomeDB [
  • Kasmanas J.C.
  • Bartholomäus A.
  • Corrêa F.B.
  • Tal T.
  • Jehmlich N.
  • Herberth G.
  • et al.
HumanMetagenomeDB: a public repository of curated and standardized metadata for human metagenomes.
] 分别注释从土壤、海洋和人类微生物组样本中获得的宏基因组,这些样本最初存放在 GenBank [
  • Sayers E.W.
  • Cavanaugh M.
  • Clark K.
  • Pruitt K.D.
  • Schoch C.L.
  • Sherry S.T.
  • et al.
]、SRA [
  • Kodama Y.
  • Shumway M.
  • Leinonen R.
on behalf of the International Nucleotide Sequence Database Collaboration
The sequence read archive: explosive growth of sequencing data.
] 和 MG-RAST [
  • Meyer F.
  • Bagchi S.
  • Chaterji S.
  • Gerlach W.
  • Grama A.
  • Harrison T.
  • et al.
MG-RAST version 4-lessons learned from a decade of low-budget ultra-high-throughput metagenome analysis.
]。 SPIRE 由 EMBL 托管,提供从 MAG 获得的可搜索的、全球范围的生态系统元数据资源 [
  • Schmidt T.S.B.
  • Fullam A.
  • Ferretti P.
  • Orakov A.
  • Maistrenko O.M.
  • Ruscheweyh H.-J.
  • et al.
SPIRE: a searchable, planetary-scale microbiome REsource.
]。最后,海洋宏基因组学门户 (MMP) [
  • Klemetsen T.
  • Raknes I.A.
  • Fu J.
  • Agafonov A.
  • Balasundaram S.V.
  • Tartari G.
  • et al.
The MAR databases: development and implementation of databases specific for marine metagenomics.
] 是一个注释面向海洋的宏基因组数据集的数据库集合,这些数据集是从 MGnify 检索的,以及由大型微生物组计划(例如 AtlantECO 或 Tara)进行的超级研究海洋探险[
  • Sunagawa S.
  • Coelho L.P.
  • Chaffron S.
  • Kultima J.R.
  • Labadie K.
  • Salazar G.
  • et al.
Structure and function of the global ocean microbiome.

最后,国家微生物组数据协作组织 (NMDC) [
The National Microbiome Data Collaborative Data Portal: an integrated multi-omics microbiome data resource.
] 是一项创新举措,旨在促进跨不同生态系统研究微生物组的研究人员之间的协作和数据共享。它作为一个集中平台,科学家可以在其中访问、分析和贡献微生物组数据,增进我们对微生物群落及其对各种环境和生物体影响的理解。通过其协作框架,NMDC 旨在加速医疗保健和环境科学等领域的发现并促进新颖解决方案的开发。

 3. 序列空间

在本节中,我们描述了上述存储库中当今的序列宏基因组/宏转录组空间(2024 年 4 月快照)。 IMG/M 目前拥有 207,655 个数据集,其中包括 54,030 个宏基因组数据集和 14,411 个宏转录组数据集(65,987,169,755 个支架)。同样,以全面收集未培养病毒基因组而闻名的IMG/VR数据库包含来自宏基因组的总共14,203,973个病毒基因组和8023,647个病毒OTU。 MGnify 拥有来自 2932 项研究的 573,344 个数据集。在这些数据集中,459,617 个扩增子、39,605 个宏基因组和 2581 个宏转录组。此外,MGnify 还具有 11 个宏基因组组装基因组 (MAG) 目录中编目的 429,448 个基因组。 MGnify 蛋白质数据库拥有超过 24 亿个从宏基因组组装预测的独特序列。 SPIRE 包含来自 739 项研究的 99,146 个宏基因组样本。 SPIRE 的宏基因组组装总大小为 16 兆碱基对 (Tbp),包含 350 亿个预测蛋白质序列和 116 万个新生成的中等到高质量的宏基因组组装基因组 (MAG)。

 4. 管道

虽然每个流程可能采用不同的方法并集成不同的分析方法,但目前所有可用的工作流程都集中于三个主要程序:i)非编码RNA基因(ncRNA)和其他标记区域的识别,ii)蛋白质编码基因的预测,以及 iii) 样本的功能和分类注释。 ncRNA(例如 rRNA、tRNA)和标记区域(例如 CRISPR 元件)通过使用 INFERNAL [
  • Nawrocki E.P.
  • Eddy S.R.
Infernal 1.1: 100-fold faster RNA homology searches.
])进行搜索来检测。 /b1> ],或使用专用工具检测序列特征(例如,用于 tRNA 的 tRNAscan-SE [
  • Chan P.P.
  • Lin B.Y.
  • Mak A.J.
  • Lowe T.M.
tRNAscan-SE 2.0: improved detection and functional classification of transfer RNA genes.
]、用于间隔区检测的 CRISPRCasTyper [
  • Russel J.
  • Pinilla-Redondo R.
  • Mayo-Muñoz D.
  • Shah S.A.
  • Sørensen S.J.
CRISPRCasTyper: An automated tool for the identification, annotation and classification of CRISPR-Cas loci.
  • Bland C.
  • Ramsey T.L.
  • Sabree F.
  • Lowe M.
  • Brown K.
  • Kyrpides N.C.
  • et al.
CRISPR recognition tool (CRT): a tool for automatic detection of clustered regularly interspaced palindromic repeats.
] 用于 CRISPR 序列,geNomad 用于鉴定病毒和质粒 [
Fast and accurate identification of plasmids and viruses in sequencing data using geNomad.
])。蛋白质基因调用可以使用多种基因预测工具进行,其中最著名的是 Prodigal [
  • Hyatt D.
  • Chen G.-L.
  • Locascio P.F.
  • Land M.L.
  • Larimer F.W.
  • Hauser L.J.
Prodigal: prokaryotic gene recognition and translation initiation site identification.
]、GeneMark [
  • Borodovsky M.
  • Lomsadze A.
Gene identification in prokaryotic genomes, phages, metagenomes, and EST sequences with GeneMarkS suite.
] 及其各种实现(GeneMarkS-2 for原核基因和真核生物的 GeneMark-ES/ET)以及 FragGeneScan [
  • Rho M.
  • Tang H.
  • Ye Y.
FragGeneScan: predicting genes in short and error-prone reads.

基因调用后,可以通过根据参考数据库搜索预测基因来执行功能注释(例如,RefSeq [
  • Haft D.H.
  • Badretdin A.
  • Coulouris G.
  • DiCuccio M.
  • Durkin A.S.
  • Jovenitti E.
  • et al.
RefSeq and the prokaryotic genome annotation pipeline in the age of metagenomes.
]、UniRef90 [
  • Suzek B.E.
  • Wang Y.
  • Huang H.
  • McGarvey P.B.
  • Wu C.H.
UniProt Consortium
UniRef clusters: a comprehensive and scalable alternative for improving sequence similarity searches.
]、UniProtKB [
UniProt Consortium
UniProt: the universal protein knowledgebase in 2021.
]、Pfam [
  • Mistry J.
  • Chuguransky S.
  • Williams L.
  • Qureshi M.
  • Salazar G.A.
  • Sonnhammer E.L.L.
  • et al.
Pfam: The protein families database in 2021.
]、InterPro [
  • Paysan-Lafosse T.
  • Blum M.
  • Chuguransky S.
  • Grego T.
  • Pinto B.L.
  • Salazar G.A.
  • et al.
InterPro in 2022.
])与成对比对(例如 BLAST [
  • Altschul S.F.
  • Gish W.
  • Miller W.
  • Myers E.W.
  • Lipman D.J.
Basic local alignment search tool.
  • Buchfink B.
  • Xie C.
  • Huson D.H.
Fast and sensitive protein alignment using DIAMOND.
]、MMseqs2 [
  • Steinegger M.
  • Söding J.
MMseqs2 enables sensitive protein sequence searching for the analysis of massive data sets.
])或基于隐马尔可夫模型 (HMM) 的方法(例如 HMMER [
  • Potter S.C.
  • Luciani A.
  • Eddy S.R.
  • Park Y.
  • Lopez R.
  • Finn R.D.
HMMER web server: 2018 update.
]、HH-suite [
  • Steinegger M.
  • Meier M.
  • Mirdita M.
  • Vöhringer H.
  • Haunsberger S.J.
  • Söding J.
HH-suite3 for fast remote homology detection and deep protein annotation.
] )。最后,数据集的分类特征基于已识别的 ncRNA 基因,并结合蛋白质基因同源性搜索的最重要结果。此外,可以使用专门的工具进行详细的系统发育分析,例如 Kraken 2 [
  • Wood D.E.
  • Lu J.
  • Langmead B.
Improved metagenomic analysis with Kraken 2.
]、PhymmBL [
  • Brady A.
  • Salzberg S.L.
Phymm and PhymmBL: metagenomic phylogenetic classification with interpolated Markov models.
] 或 MetaPhlAn [
  • Manghi P.
  • Blanco-Míguez A.
  • Manara S.
  • NabiNejad A.
  • Cumbo F.
  • Beghini F.
  • et al.
MetaPhlAn 4 profiling of unknown species-level genome bins improves the characterization of diet-associated microbiome changes in mice.

5. 宏基因组学中使用的中央可视化布局

尽管宏基因组具有异质性且可视化复杂,但常见的可视化概念始终可用于某些目的(图 2)。
Fig. 2

图 2 不同的可视化概念。 (A) 马戏团图。 (B) 翻转图及其相应的维恩图。 (C) 热图。 (D) 条形图(物种)。 (五)网络。 (F) 旭日图(克朗)。 (G) 树形图。 (H) 系统发育树。 (一)桑基图。 (J) 气泡图。 (K) 蜂巢图。 (L) PCA 图。所有绘图都是使用模拟数据创建的。

 5.1 马戏团

它是一个圆形数据可视化工具,显示沿圆周排列的不同实体之间的关系(图2A)。它最初是为基因组学和生物信息学应用而开发的,但后来被用于各个领域,以可视化复杂的关系和模式。在 Circos 图中,数据由连接圆上点的带状或圆弧表示。圆圈上每个点的位置代表一个特定的实体或类别,丝带表示它们之间的联系或关系。带的厚度或颜色可用于编码定量信息,使其能够有效地说明基因组数据,例如基因组重排、元素之间的相互作用或大型数据集中的相关性。 Circos 图提供了一种独特且具有视觉吸引力的方式来表示复杂数据集中的复杂关系和模式。例如,NMPFamsDB [
  • Baltoumas F.A.
  • Karatzas E.
  • Liu S.
  • Ovchinnikov S.
  • Sofianatos Y.
  • Chen I.-M.
  • et al.
NMPFamsDB: a database of novel protein families from microbial metagenomes and metatranscriptomes.
  • Pavlopoulos G.A.
  • Baltoumas F.A.
  • Liu S.
  • Selvitopi O.
  • Camargo A.P.
  • Nayfach S.
  • et al.
Unraveling the functional dark matter through global metagenomics.
] 是来自宏基因组的新蛋白质家族的数据库,并提供生态系统和系统发育选项,允许用户可视化家族与其生物体的关联通过 Circos 图显示不同级别的类别或生态系统。

 5.2 扰动图

UpSet 图是一种数据可视化工具,用于以比传统维恩图更详细、信息更丰富的方式表示集合的交集和基数(图 2B)。在处理较大的集合或集合之间的多个交集时,UpSet 图特别有用。它们旨在解决维恩图的一些局限性,例如缩放到大量集合和呈现交集大小的困难。 UpSet 图的主要功能包括: (i) 矩阵显示 - UpSet 图使用矩阵来表示集合的交集,而不是使用重叠的圆圈。矩阵中的每一行对应于一组唯一的组合,并且单元格指示该特定组合是否存在或不存在。 (ii) 集合大小的条形图 - 该图通常包括显示各个集合的大小的条形图或直方图,以便清楚地了解元素在集合中的分布。 (iii) 交叉点大小条 - 该图还包括代表每个交叉点大小的条形,允许快速比较不同交叉点的大小。 (iv) 注释 - UpSet 图可能包括附加注释或标签,以提供上下文或突出显示数据的特定特征。例如,FLAME [
  • Karatzas E.
  • Baltoumas F.A.
  • Aplakidou E.
  • Kontou P.I.
  • Stathopoulos P.
  • Stefanis L.
  • et al.
Flame (v2.0): advanced integration and interpretation of functional enrichment results from multiple sources.
  • Thanati F.
  • Karatzas E.
  • Baltoumas F.A.
  • Stravopodis D.J.
  • Eliopoulos A.G.
  • Pavlopoulos G.A.
FLAME: a web tool for functional and literature enrichment analysis of multiple gene lists.
],一个致力于功能丰富的网络,使用交互式 UpSet 图来显示各种基因列表的重叠注释或丰富术语以及联合和导入的基因/蛋白质列表的交叉点。

 5.3 维恩图

这是一个图形表示,显示元素集或元素组之间的关系(并集和交集)(图 2B)。它由重叠的圆圈组成,每个圆圈代表一个集合,圆圈之间的重叠或相交代表这些集合之间共享的元素。维恩图的主要目的是直观地描述不同组或类别之间的共性和差异。维恩图的关键组成部分包括 (i) 圆形或椭圆形 - 图中的每个圆形或椭圆形代表一个集合或类别。属于该集合的元素包含在圆圈内。 (ii) 重叠 - 圆圈之间的重叠区域表示两个集合共有的元素。重叠的大小反映了共享元素的范围。 (iii)非重叠区域-每个圆圈的非重叠部分代表该特定集合所独有的元素。维恩图广泛应用于包括宏基因组学在内的各个领域,以可视化不同元素集之间的关系和重叠,例如分类组成、功能基因注释、比较条件或环境以及群落结构。例如,NMPFamsDB 是一个包含源自微生物宏基因组和元转录组的新型蛋白质家族的数据库,在其图形摘要中使用了维恩图。该图说明了新型蛋白质家族在生命各个领域的分布和覆盖范围。这种视觉表现有效地传达了许多新的蛋白质家族包含来自多个分类群的成员,突出了关于这些蛋白质的保守性和重要性的有趣发现。

 5.4 热图

它是一种图形表示形式,使用颜色来可视化数据矩阵或网格中变量的强度(图 2C)。它通过将主要变量的值排列在彩色方块网格中来说明主要变量的值,其中两个轴变量分为类似于条形图或直方图的范围。每个单元格的颜色表示轴变量相应范围内主变量的值。在宏基因组分析的背景下,可以采用热图来显示不同样本或条件下特定微生物类群或功能基因的丰度或存在。热图中的行和列可能分别对应于单个微生物分类群或基因以及不同的样本,颜色指示每个元素的相对丰度或出现情况。这种可视化类型对于识别模式、对相关分类群或基因进行聚类以及深入了解宏基因组数据集中微生物群落的组成和动态非常有价值。例如,在[
  • Lluch J.
  • Servant F.
  • Païssé S.
  • Valle C.
  • Valière S.
  • Kuchly C.
  • et al.
The characterization of novel tissue microbiota using an optimized 16S metagenomic sequencing pipeline.

 5.5 条形图

它们代表基于统计数据和数字的数据。条形图使用两个轴来绘制矩形条(图 2D)。其中一个轴代表观察/类别,通常是固定变量,而另一个轴代表观察所携带的数值大小。条形图的典型类型包括水平条形图、垂直条形图、双条形图、多条形图和条形线。在宏基因组学领域,条形图提供了一种有用的可视化方法,用于表示生物样本中不同分类群(例如物种、属、门)的丰度或分布。此类条形图的示例有:(i) 堆积条形图、(ii) 分组条形图和(iii) 相对丰度条形图。在堆叠条形图中,每个条形图都分为多个部分,每个部分代表一个不同的分类组。每个片段的高度对应于样本中该组的丰度。分组条形图可用于比较多个样本中不同分类组的丰度。每组条形代表不同的样本,并且在每组内,条形代表不同分类组的丰度。相对丰度条形图显示每个分类组的相对丰度而不是绝对计数。它对于比较样本中不同类群的比例非常有用。例如,在[
  • Galanis A.
  • Vardakas P.
  • Reczko M.
  • Harokopos V.
  • Hatzis P.
  • Skoulakis E.M.C.
  • et al.
Bee foraging preferences, microbiota and pathogens revealed by direct shotgun metagenomics of honey.
]中,采用堆叠条形图来描绘共生细菌在分类为核心或非核心的物种之间的分布。这项研究调查了从稳定养蜂场在三个收获季节收集的蜂蜜,以阐明构成核心和非核心细菌群落的物种多样性。 通过使用堆叠条形图,可视化有效地突出了核心蜜蜂微生物群稳定性特征和五种非核心细菌菌株的季节动态的差异。

 5.6 网络

一般意义上,网络可视化表示系统内元素之间的连接和关系,其中这些元素是节点,它们之间的连接是边。通过使用图形表示,网络可视化提供了一种清晰直观的方法来理解复杂网络内的结构、依赖关系和交互(图 2D)。网络可用于可视化多个科学领域的数据。在生物学中,网络通常用于提供有关生物系统、样本或实体之间的连接性或其他关系的信息[
  • Baltoumas F.A.
  • Zafeiropoulou S.
  • Karatzas E.
  • Koutrouli M.
  • Thanati F.
  • Voutsadaki K.
  • et al.
Biomolecule and bioentity interaction databases in systems biology: a comprehensive review.
  • Koutrouli M.
  • Karatzas E.
  • Paez-Espino D.
  • Pavlopoulos G.A.
A guide to conquer the biological network era using graph theory.
]。生物网络可视化的典型案例是:(i)生物途径图 - 这些可视化说明了特定生物途径中涉及的生化反应和分子相互作用的序列。它们提供了不同分子(例如蛋白质和代谢物)如何协作执行基本细胞功能的整体视图。 (ii) 蛋白质-蛋白质相互作用网络——它们是蛋白质之间相互作用的图形表示,阐明了细胞系统内复杂的连接网络。节点代表蛋白质,边缘代表相互作用,使研究人员能够分析对细胞过程至关重要的功能关系。 (iii) 基因调控网络 - 基因调控网络的可视化展示了基因如何控制彼此的表达。节点代表基因,边缘代表调控相互作用,揭示了控制细胞功能的复杂调控机制。 (iv) 代谢网络 - 它们描述了细胞内相互关联的代谢途径。 节点代表代谢物,边缘代表酶促反应,从而深入了解细胞如何处理营养物质和能量。 (v) 信号网络 - 它们说明了细胞相互通信的途径。 (vi) 疾病网络 - 它们捕获与特定疾病相关的基因、蛋白质和其他生物分子之间的关系。 (vii) 系统发育网络 - 它们代表不同物种之间的进化关系。 (viii) 生态网络 - 它们描述生态系统中不同物种之间的相互作用。这包括食物网,其中物种通过捕食者与猎物的关系连接起来。例如,在[
  • Pavlopoulos G.A.
  • Baltoumas F.A.
  • Liu S.
  • Selvitopi O.
  • Camargo A.P.
  • Nayfach S.
  • et al.
Unraveling the functional dark matter through global metagenomics.
]中,网络被用来表示NMPFamDB及其生态系统中报告的新型蛋白质簇的分布和关联。根据 GOLD 生态系统分类,应用了八种生态系统类型,以中央彩色节点(中心)表示。灰色外围节点代表蛋白质簇,而边缘代表蛋白质簇-生态系统关联。

5.7 旭日图(克朗)

它有多个名称,例如环形图和径向树图,用于可视化分层数据集(图 2F)。它通过使用一系列同心环来展示层次结构,其中每个环对应于层次结构中的特定级别。每个环内的分段按比例划分以表示该级别的细节。通过关注环内的某个段,人们可以了解该段与整个层次结构及其父环段的关系。 Sunburst 图表采用放射状布局,为分类数据集提供身临其境的可视化体验。与树形图中使用的矩形布局不同,旭日图充满空间,并展示每个环如何细分为连续的段,有效地说明了数据的层次结构细分。图表中分类学的直观表示被证明对于宏基因组分析很有价值。其径向布局可以直观地探索不同分类级别之间的关系,从而深入了解微生物群落的组成和分布。例如,[
  • Heyer R.
  • Schallert K.
  • Siewert C.
  • Kohrs F.
  • Greve J.
  • Maus I.
  • et al.
Metaproteome analysis reveals that syntrophy, competition, and phage-host interaction shape microbial communities in biogas plants.
]中采用克朗图。该图提供了对沼气厂 (BGP) 内主要微生物分类和功能的深入了解。它通过总结已识别的微生物家族和生物过程,全面概述了微生物群落结构和代谢功能。 KRONA 图描绘了已识别细菌、古细菌和病毒在从超级界到科的各个分类级别上的分布,丰度根据所有 BGP 上已识别光谱的总和表示。

 5.8 树形图

它是通过嵌套矩形表示分层数据的可视化(图 2G)。树状图中的每个矩形对应于特定类别或子类别,矩形的大小反映了它们所代表的数据的定量值。层次结构通过矩形之间的嵌套来描述,顶层矩形代表整个数据集,并将其细分为每个后续级别的更小的矩形。树形图可以有效地显示层次结构并促进对复杂数据集的直观探索,使其在信息可视化、财务分析和项目管理等领域特别有用。在宏基因组分析中,树形图可以用作可视化工具来表示微生物分类或功能数据中的层次结构。例如,在[
  • Bremel R.D.
  • Homan E.J.
Extensive T-Cell Epitope Repertoire Sharing among Human Proteome, Gastrointestinal Microbiome, and Pathogenic Bacteria: Implications for the Definition of Self.
]中,利用树形图来可视化病原体蛋白质组内的T细胞表位库频率模式(TCEM)。树形图中的每个矩形代表细菌物种之间独特的 TCEM 共享关系,其大小与该特定组合中的基序数量成比例。

 5.9 系统发育树

它们是一种特定类型的树图(树状图),可用于表示分类关系(图 2H)。这些根据宏基因组数据构建的图表通过描述基于遗传相似性的分支模式,有助于说明这些微生物之间的进化关系,从而深入了解给定生态系统中整个微生物群落的生物多样性和进化历史。例如,[
  • Zhu Q.
  • Mai U.
  • Pfeiffer W.
  • Janssen S.
  • Asnicar F.
  • Sanders J.G.
  • et al.
Phylogenomics of 10,575 genomes reveals evolutionary proximity between domains Bacteria and Archaea.
] 呈现了一个系统发育树,显示了细菌和古细菌的生命树,并呈现了域级关系的更新视图。

 5.10 桑基图

桑基图,也称为桑基图或流程图,是一种可视化表示,说明多个实体之间的资源或信息流 [
  • Otto E.
  • Culakova E.
  • Meng S.
  • Zhang Z.
  • Xu H.
  • Mohile S.
  • et al.
Overview of Sankey flow diagrams: Focusing on symptom trajectories in older adults with advanced cancer.
  • Kennedy A.B.W.
  • Sankey H.R.
The thermal efficiency of steam engines. report of the committee appointed to the council upon the subject of the definition of a standard or standards of thermal efficiency for steam engines: with an introductory note. (Including appendixes and plate at back of volume).
](图 2I )。该图由节点(代表实体或类别)和直接链接(加权线或箭头)组成,显示节点之间流量的方向和数量。链接的宽度与流量成正比,使观察者可以轻松掌握系统内不同路径的相对大小。在宏基因组分析中,桑基图可用于说明不同生物样本或条件下分类或功能类别的分布和转变。这些图可以代表微生物类群或功能基因丰度的流动,展示这些实体如何在各种环境样本、实验处理或时间点之间转移或保持一致。桑基图中链接的宽度对应于类群或功能类别的相对丰度,提供对微生物群落动态的直观了解。例如,BioSankey [
  • Platzer A.
  • Polzin J.
  • Rembart K.
  • Han P.P.
  • Rauer D.
  • Nussbaumer T.
BioSankey: Visualization of Microbial Communities Over Time.
] 有助于随时间推移微生物群落的可视化。该工具通过创建直观且交互式的桑基图来描述不同时间点微生物组研究中微生物物种的变化,有助于全面了解实验数据并充分利用数据集的潜力。

 5.11 气泡图

  • Ghosh S.
  • Das A.P.
Metagenomic insights into the microbial diversity in manganese-contaminated mine tailings and their role in biogeochemical cycling of manganese.
] 包括一个气泡图,说明样本的相对分类丰度。每个气泡的大小表示该分类单元相对于其最大丰度的丰度,气泡尺寸越大表示丰度越高。此外,每个圆圈的大小按对数缩放,以表示直接分配给分类单元的开放阅读框(ORF)的数量。这种可视化有助于理解微生物群落的分类组成及其在生物地球化学锰循环中的潜在作用。

 5.12 蜂巢图

蜂巢图背后的基本概念是以结构化和直观的方式可视化多个变量或类别之间的关系或联系(图 2K)。它通常用于表示具有多个维度的复杂网络或数据集 [
  • Krzywinski M.
  • Birol I.
  • Jones S.J.
  • Marra M.A.
Hive plots--rational approach to visualizing networks.
  • Sweet M.
  • Burian A.
  • Fifer J.
  • Bulling M.
  • Elliott D.
  • Raymundo L.
Compositional homogeneity in the pathobiome of a new, slow-spreading coral disease.

5.13 降维方法

降维方法 [
  • Armstrong G.
  • Rahman G.
  • Martino C.
  • McDonald D.
  • Gonzalez A.
  • Mishne G.
  • et al.
Applications and Comparison of Dimensionality Reduction Methods for Microbiome Data.
  • Nanga S.
  • Bawah A.T.
  • Acquaye B.A.
  • Billa M.-I.
  • Baeta F.D.
  • Odai N.A.
  • et al.
Review of Dimension Reduction Methods.
  • Ma Y.
  • Zhu L.
A Review on Dimension Reduction.
  • Huang H.
  • Wang Y.
  • Rudin C.
  • Browne E.P.
Towards a comprehensive evaluation of dimension reduction methods for transcriptomic data visualization.
  • Becht E.
  • McInnes L.
  • Healy J.
  • Dutertre C.-A.
  • Kwok I.W.H.
  • Ng L.G.
  • et al.
Dimensionality reduction for visualizing single-cell data using UMAP.
  • Velliangiri S.
  • Alagumuthukrishnan S.
  • Thankumar Joseph S.I.
A Review of Dimensionality Reduction Techniques for Efficient Computation.
  • Chari T.
  • Pachter L.
The specious art of single-cell genomics.
] 通过将高维数据集转换为低维表示,同时保留重要信息,在分析高维数据集方面发挥着至关重要的作用。主成分分析 (PCA)(图 2L)是一种广泛使用的线性技术,可识别数据中最大方差的轴。它将数据投影到这些轴上以降低维度,同时保留最重要的特征。 PCA 图是一种视觉表示,用于根据样本的整体组成探索和理解样本之间的关系。例如,在[
  • Nie Y.
  • Zhao J.-Y.
  • Tang Y.-Q.
  • Guo P.
  • Yang Y.
  • Wu X.-L.
  • et al.
Species Divergence vs. Functional Convergence Characterizes Crude Oil Microbial Community Assembly.
]中,利用3D PCA图显示了油样中的4个宏基因组和IMG数据库中的948个环境宏基因组使用KO丰度的聚类结果。这种可视化可以帮助检查不同环境中宏基因组功能组成之间的关系。

其他众所周知的降维方法包括均匀流形逼近和投影 (UMAP)、t 分布随机邻域嵌入 (t-SNE) 和潜在狄利克雷分配 (LDA)。统一流形逼近和投影 (UMAP) 是一种非线性降维方法,可保留数据中的全局和局部结构,使其能够有效地可视化复杂数据集。 UMAP 在元基因组领域得到了频繁的应用,其使用非常普遍。这种非线性机器学习方法的整合预计将显着增强我们对宏基因组的理解。 t 分布随机邻域嵌入 (t-SNE) 是另一种流行的非线性方法,专注于保留数据点之间的局部关系,通常用于在二维或三维中可视化高维数据。潜在狄利克雷分配(LDA)是一种概率生成模型,常用于自然语言处理中的主题建模。它通过将文档表示为主题的分布来降低维度,从而允许探索大型文本语料库中的潜在主题。总的来说,这些降维方法为可视化和探索跨不同领域的复杂数据集提供了强大的工具(例如,scRNA-seq,请参阅 SCALA 应用程序 [
  • Tzaferis C.
  • Karatzas E.
  • Baltoumas F.A.
  • Pavlopoulos G.A.
  • Kollias G.
  • Konstantopoulos D.
SCALA: A complete solution for multimodal analysis of single-cell Next Generation Sequencing data.

 5.14 稀疏曲线

它是一种调整样本间宏基因组克隆文库大小差异的方法,以帮助比较 α 多样性。稀疏的概念涉及选择等于或小于最小样本中的样本数的指定数量的样本,然后从较大样本中随机消除读数,直到剩余样本数达到阈值。基于这些大小相等的子样本,可以计算多样性指标以与生态系统相矛盾,并且与样本大小的差异无关。计算出的稀疏度由折线图表示。稀疏曲线不仅反映了样本覆盖度,还描述了采样深度是否足以估计多样性。曲线表示采样深度足够,上升图表示采样深度不足。稀疏曲线通常用于生态学和生物多样性研究,以评估采样工作在捕获生物群落多样性方面的充分性 [
  • Chakraborty J.
  • Palit K.
  • Das S.
Metagenomic approaches to study the culture-independent bacterial diversity of a polluted environment—a case study on north-eastern coast of Bay of Bengal, India.
  • Wang L.
  • Jin L.
  • Xue B.
  • Wang Z.
  • Peng Q.
Characterizing the bacterial community across the gastrointestinal tract of goats: Composition and potential function.
  • Weiss S.
  • Xu Z.Z.
  • Peddada S.
  • Amir A.
  • Bittinger K.
  • Gonzalez A.
  • et al.
Normalization and microbial differential abundance strategies depend upon data characteristics.
] 。该曲线绘制了观察到的物种或独特实体的数量与采样数量的关系。最初,随着收集到的样本越来越多,曲线急剧上升,反映出新物种的发现。然而,它最终趋于稳定,表明社区的大部分多样性已经被采样。稀疏曲线帮助研究人员估计物种丰富度,评估采样工作的有效性,并就生态研究中数据收集的全面性做出明智的决策。稀疏分析用于标准化不同样本量的多样性测量,从而实现生态系统或研究地点之间的公平比较。 在[
  • Pavlopoulos G.A.
  • Baltoumas F.A.
  • Liu S.
  • Selvitopi O.
  • Camargo A.P.
  • Nayfach S.
  • et al.
Unraveling the functional dark matter through global metagenomics.

 5.15 基因图谱

通常称为遗传图谱或基因组图谱,它是特定染色体或整个基因组上基因排列和位置的直观表示。与 Circos 一样,它提供了遗传结构的图形概述,指示基因、标记和其他遗传特征的相对位置。基因图谱是基因组学和宏基因组学研究的重要工具,有助于理解基因连锁、遗传距离和遗传物质的组织。高分辨率基因图谱对于涉及基因鉴定、标记辅助育种以及各种性状或疾病的遗传基础研究的研究尤其重要。下一代测序等技术进步显着提高了基因图谱的准确性和精确度,有助于我们了解包括人类在内的各种生物体的遗传景观。例如,在[
  • Krishnaswamy V.G.
  • Aishwarya S.
  • Kathawala T.M.
Extrication of the microbial interactions of activated sludge used in the textile effluent treatment of anaerobic reactor through metagenomic profiling.

 5.16 树形图


 5.17 空间填充贴图

  • Pavlopoulos G.A.
  • Kumar P.
  • Sifrim A.
  • Sakai R.
  • Lin M.L.
  • Voet T.
  • et al.
Meander: visually exploring the structural variome using space-filling curves.
]。扩大范围,这个概念可以适用于空间填充图配置中的宏基因组学。在此表示中,每个位置或像素对应于参考集合内的基因组。给定位置的强度颜色值反映了宏基因组样本中特定基因组的相对丰度。这些微生物组图提供了一种多功能的探索工具,可以对分类学、生态系统丰度进行调查,同时比较多个样本,并通过时间序列分析来分析微生物群落动态。与通常优先考虑群体中丰度最高的元素的传统可视化方法相比,基于希尔伯特曲线的地图提供了更细致的视角。它们为丰度较小的类群提供了增强的分辨率,解决了传统可视化技术中常见的限制。 例如,Meander 应用 [
  • Pavlopoulos G.A.
  • Kumar P.
  • Sifrim A.
  • Sakai R.
  • Lin M.L.
  • Voet T.
  • et al.
Meander: visually exploring the structural variome using space-filling curves.
] 已用于比较来自中亚的 ICE153 菌株和来自意大利南部的 ICE97 菌株之间的 1 号染色体,显示出由配对末端和读段支持的缺失和串联重复。 -借助希尔伯曲线以更高分辨率获得深度信息。

在宏基因组分析领域,浏览复杂的数据集和理解微生物群落之间错综复杂的关系提出了重大挑战。为了应对这些挑战,提出的各种可视化概念可能很有用。在此表(表 2)中,我们重点关注宏基因组可视化中遇到的主要挑战,从表示复杂关系到处理大型数据集和理解分类层次结构。表中列出的每个可视化概念都提供了专门针对特定宏基因组挑战而定制的独特功能,为研究人员提供了探索、分析和解释复杂生物数据的宝贵工具。

表 2 可视化概念按其与宏基因组可视化挑战的相关性进行组织。
 可视化挑战 可视化概念












蜂巢图、3D 网络、降维方法





6. 宏基因组可视化工具的主要应用

在这一部分中,我们展示了各种可视化工具,并根据其主要功能对它们进行组织。尽管我们的汇编可能并不详尽,但我们重点关注成熟的工具,以阐明在不断发展的数据可视化领域中可用于可视化宏基因组数据的一系列选项。这些工具分为主要组,包括质量控制、分箱、组装、基因组内容查看器、分类、社区和网络(表 3)。

表 3 代表性工具按其主要功能进行组织。
 快速质量控制 质量控制
 开源 独立式2023
  • Fukasawa Y.
  • Ermini L.
  • Wang H.
  • Carty K.
  • Cheung M.-S.
LongQC: A Quality Control Tool for Third Generation Sequencing Long Read Data.
原始长读长测序数据(在任何比对或组装步骤之前 - PacBio 测序、Oxford Nanopore 测序)
 开源 独立式2023
  • Lanfear R.
  • Schalamun M.
  • Kainer D.
  • Wang W.
  • Schwessinger B.
MinIONQC: fast and simple quality control for MinION sequencing data.
原始序列数据(在任何比对或组装步骤之前 - FASTQ、FAST5 格式)
 开源 独立式2020
  • De Coster W.
  • D’Hert S.
  • Schultz D.T.
  • Cruts M.
  • Van Broeckhoven C.
NanoPack: visualizing and processing long-read sequencing data.
原始序列数据(在任何比对或组装步骤之前 - FASTQ、FAST5 格式)
 开源 工具套件2023
  • Chen Y.
  • Chen Y.
  • Shi C.
  • Huang Z.
  • Zhang Y.
  • Li S.
  • et al.
SOAPnuke: a MapReduce acceleration-supported software for integrated quality control and preprocessing of high-throughput sequencing data.
Quality ControlRaw sequence data (before any alignment or assembly steps - FASTQ format)Open sourceStand-alone2024
  • Hufnagel D.E.
  • Hufford M.B.
  • Seetharam A.S.
SequelTools: a suite of tools for working with PacBio Sequel raw sequence data.
Quality ControlRaw Long-Read Sequencing Data (before any alignment or assembly steps - PacBio Sequencing, Oxford Nanopore Sequencing)Open sourceStand-alone2020
  • Nielsen C.B.
  • Jackman S.D.
  • Birol I.
  • Jones S.J.M.
ABySS-Explorer: visualizing genome sequence assemblies.
AssemblyABySS Assemblies (scaffolds or contigs in FASTA format), Raw sequence dataOpen sourceStand-alone2018
Assembly Graph Browser (AGB)
  • Mikheenko A.
  • Kolmogorov M.
Assembly Graph Browser: interactive visualization of assembly graphs.
AssemblyAssembly Graph Files (GFA (Graphical Fragment Assembly))Open sourceStand-alone2019
  • Gonnella G.
  • Niehus N.
  • Kurtz S.
GfaViz: flexible and interactive visualization of GFA sequence graphs.
AssemblyAssembly Graph Files (GFA (Graphical Fragment Assembly))Open sourceStand-alone2019
  • Kunyavskaya O.
  • Prjibelski A.D.
SGTK: a toolkit for visualization and assessment of scaffold graphs.
AssemblyAssembly Graph Files (GFA (Graphical Fragment Assembly))Open sourceToolkitArchived in 2023
  • Yuan Y.
  • Ma RK-K
  • Chan T.-F.
PanGraphViewer: a versatile tool to visualize pangenome graphs.
Assembly/PangenomePangenome graphs (rGFA, GFA_v1, VCF), Annotation Files (BED, GTF / GFF)Open sourceStand-alone2022
MetagenomeScopeAssemblyGFA, FASTG, GML, LastGraphOpen sourceWeb-based tool2020
  • Pavia M.J.
  • Chede A.
  • Wu Z.
  • Cadillo-Quiroz H.
  • Zhu Q.
BinaRena: a dedicated interactive platform for human-guided exploration and binning of metagenomes.
Binning(Human) Assembled Data (FASTA)BSD 3-Clause LicenseWeb application2023
  • Alneberg J.
  • Bjarnason B.S.
  • de Bruijn I.
  • Schirmer M.
  • Quick J.
  • Ijaz U.Z.
  • et al.
BinningMetagenomic Sequencing data, Contig SequenceOpen sourceStand-alone2019
  • Uritskiy G.V.
  • DiRuggiero J.
  • Taylor J.
MetaWRAP—a flexible pipeline for genome-resolved metagenomic data analysis.
BinningMetagenomic sequencing data (FASTQ format), Assembled contigs (FASTA),Open sourcePipeline2020
  • Laczny C.C.
  • Sternal T.
  • Plugaru V.
  • Gawron P.
  • Atashpendar A.
  • Margossian H.H.
  • et al.
VizBin - an application for reference-independent visualization and human-augmented binning of metagenomic data.
BinningMetagenomic Fragments (Contigs / reads)(FASTA)BSD License (4-clause)Stand-alone2019
  • Eren A.M.
  • Kiefl E.
  • Shaiber A.
  • Veseli I.
  • Miller S.E.
  • Schechter M.S.
  • et al.
Community-led, integrated, reproducible multi-omics with anvi’o.
Contig & Genome Viewer / Communities / TaxonomyDNA sequence (FASTA), Contigs (FASTA), Short reads (FASTA), External / Internal genome databaseOpen sourceStand-alone2023
  • Stothard P.
  • Grant J.R.
  • Van Domselaar G.
Visualizing and comparing circular genomes using the CGView family of tools.
Contig & Genome ViewerJSON filesOpen sourceWeb-based tool2019
  • Anastasiadi M.
  • Bragin E.
  • Biojoux P.
  • Ahamed A.
  • Burgin J.
  • De Castro Cogle K.
  • et al.
CRAMER: a lightweight, highly customizable web-based genome browser supporting multiple visualization instances.
Contig, Genome & MSA ViewerMetagenomic sequence data (Raw DNA sequence / FASTA files)Open sourceStand-alone2019
  • Cantor M.
  • Nordberg H.
  • Smirnova T.
  • Hess M.
  • Tringe S.
  • Dubchak I.
Elviz – exploration of metagenome assemblies with an interactive visualization tool.
Contig & Genome ViewerMetagenomic sequence data (Raw DNA sequence / FASTA files)Open sourceWeb-based application2024
  • Rangwala S.H.
  • Kuznetsov A.
  • Ananiev V.
  • Asztalos A.
  • Borodin E.
  • Evgeniev V.
  • et al.
Accessing NCBI data using the NCBI Sequence Viewer and Genome Data Viewer (GDV).
Contig, Genome & MSA ViewerRNA-seq data, ChIP-seq data, Genome Sequence Data, Proteomic Data & Epigenomic DataOpen sourceWeb-based application2021
  • LYi S.
  • Wang Q.
  • Lekschas F.
  • Gehlenborg N.
Gosling: A Grammar-based Toolkit for Scalable and Interactive Genomics Data Visualization.
Contig, Genome & MSA ViewerMetagenomic sequence data (Raw DNA sequence / FASTA files)Open sourceToolkit2021
  • Chen I.-M.A.
  • Chu K.
  • Palaniappan K.
  • Pillay M.
  • Ratner A.
  • Huang J.
  • et al.
IMG/M v.5.0: an integrated data management and comparative analysis system for microbial genomes and microbiomes.
  • Camargo A.P.
  • Nayfach S.
  • Chen I.-M.A.
  • Palaniappan K.
  • Ratner A.
  • Chu K.
  • et al.
IMG/VR v4: an expanded database of uncultivated virus genomes within a framework of extensive functional, taxonomic, and ecological metadata.
Contig and Genome ViewerVisualization of IMG/M and IMG/VR contig annotationsOpen sourceWeb-based platforms2023
  • Thorvaldsdottir H.
  • Robinson J.T.
  • Mesirov J.P.
Integrative Genomics Viewer (IGV): high-performance genomics data visualization and exploration.
Genome ViewerMetagenome sequence data (FASTA), Alignment Data, Variant Calls, Gene Annotations (GFF)Open sourceStand-alone2023
  • Buels R.
  • Yao E.
  • Diesh C.M.
  • Hayes R.D.
  • Munoz-Torres M.
  • Helt G.
  • et al.
JBrowse: a dynamic web platform for genome visualization and analysis.
Genome ViewerMetagenome sequence data (FASTA), Alignment Data, Variant Calls, Gene Annotations (GFF)Open sourceStand-alone2024
  • Dong X.
  • Strous M.
An integrated pipeline for annotation and visualization of metagenomic contigs.
Contig ViewerMetagenomic Contig, Gene Prediction File, Taxonomic Information FileOpen sourceStand-alone pipeline2020
  • Milne I.
  • Bayer M.
  • Cardle L.
  • Shaw P.
  • Stephen G.
  • Wright F.
  • et al.
Tablet—next generation sequence assembly visualization.
Genome ViewerSAM (Sequence Alignment/Map) and BAM (Binary Alignment/Map), Variant Call Format (VCF), Metagenome Sequence, Genome Assembly Files, Sequence Read FilesBSD-2-Clause licenseStand-alone2021
UCSC Genome Browser
  • Nassar L.R.
  • Barber G.P.
  • Benet-Pagès A.
  • Casper J.
  • Clawson H.
  • Diekhans M.
  • et al.
The UCSC Genome Browser database: 2023 update.
Genome & MSA ViewerGenome Sequence Data, Annotation Data (GFF), ChIP-Seq Data, RNA-seq Data, Multiple Sequence Alignments (MSA)Open sourceOnline portal2022
  • Cunningham F.
  • Allen J.E.
  • Allen J.
  • Alvarez-Jarreta J.
  • Amode M.R.
  • Armean I.M.
  • et al.
Ensembl 2022.
Genome ViewerGenome Sequence Data, Annotation Data (GFF), ChIP-Seq Data, RNA-seq Data, Multiple Sequence Alignments (MSA)Open sourceSuite of tools2024
  • Carver T.
  • Harris S.R.
  • Berriman M.
  • Parkhill J.
  • McQuillan J.A.
Artemis: an integrated platform for visualization and analysis of high-throughput sequence-based experimental data.
Genome ViewerGenome Sequence Data, Annotation Data (Genebank, EMBL format)Open sourceStand-alone2011
  • Okonechnikov K.
  • Golosova O.
  • Fursov M.
the UGENE team
Unipro UGENE: a unified bioinformatics toolkit.
Genome ViewerGenome Sequence Data (FASTA, GFF, SAM/BAM, BED), Annotation Data (Genebank, EMBL format, BED, GFF), Multiple Sequence Alignments (MAF), Expression Data FilesOpen sourceStand-alone2023
  • Kearse M.
  • Moir R.
  • Wilson A.
  • Stones-Havas S.
  • Cheung M.
  • Sturrock S.
  • et al.
Geneious Basic: An integrated and extendable desktop software platform for the organization and analysis of sequence data.
Genome ViewerGenome Sequence Data (FASTA, GFF, SAM/BAM, BED), Annotation Data (Genebank, EMBL format, BED, GFF), Multiple Sequence Alignments (MAF), Expression Data FilesFree trial - Requires subscriptionPart of a software suite2023
  • Olson R.D.
  • Assaf R.
  • Brettin T.
  • Conrad N.
  • Cucinell C.
  • Davis J.J.
  • et al.
Introducing the bacterial and viral bioinformatics resource center (BV-BRC): a resource combining PATRIC, IRD and ViPR.
MSA ViewerMultiple Sequence Alignments (MSA)PortalWeb-based resource2022
  • Yachdav G.
  • Wilzbach S.
  • Rauscher B.
  • Sheridan R.
  • Sillitoe I.
  • Procter J.
  • et al.
MSAViewer: interactive JavaScript visualization of multiple sequence alignments.
MSA ViewerMultiple Sequence Alignments (MSA)Open sourceWeb-based application2023
  • Bayer M.
  • Milne I.
  • Stephen G.
  • Shaw P.
  • Cardle L.
  • Wright F.
  • et al.
Comparative visualization of genetic and physical maps with Strudel.
MSA ViewerMetadata (CSV,TSV), Aligned Sequence Data, Phylogenetic Tree Data, Annotation Data (GFF)Open sourceStand alone2015
  • Anderson C.L.
  • Strope C.L.
  • Moriyama E.N.
SuiteMSA: visual tools for multiple sequence alignment comparison and molecular sequence simulation.
MSA ViewerMultiple Sequence Alignments (MSA)Open sourceStand alone2013
  • Waterhouse A.M.
  • Procter J.B.
  • Martin D.M.A.
  • Clamp M.
  • Barton G.J.
Jalview Version 2—a multiple sequence alignment editor and analysis workbench.
MSA ViewerMultiple Sequence Alignments (ex FASTA, Clustal, Stockholm)Open sourceStand alone2023
  • Torun F.M.
  • Bilgin H.I.
  • Kaplan O.I.
MSABrowser: dynamic and fast visualization of sequence alignments, variations and annotations.
MSA ViewerMultiple Sequence Alignments (MSA)Open sourceStand-alone web-based application2021
  • Gouy M.
  • Tannier E.
  • Comte N.
  • Parsons D.P.
Seaview Version 5: A Multiplatform Software for Multiple Sequence Alignment, Molecular Phylogenetic Analyses, and Tree Reconciliation.
MSA ViewerMultiple Sequence Alignments (ex FASTA, Clustal, Stockholm, PHYLIP)Open sourceStand-alone or helper application2024
  • Durant É.
  • Sabot F.
  • Conte M.
  • Rouard M.
Panache: a web browser-based viewer for linearized pangenomes.
Pangenome ViewerGraphical Fragment Assembly (GFA)Open sourceWeb-based interface2022
  • Hennig A.
  • Bernhardt J.
  • Nieselt K.
Pan-Tetris: an interactive visualisation for Pan-genomes.
Pangenome ViewerPangenome map files (ex PanGee), meta-information (TIGRFAM)Open sourceSoftware tool2015
  • Pedersen T.L.
  • Nookaew I.
  • Wayne Ussery D.
  • Månsson M.
PanViz: interactive visualization of the structure of functionally annotated pangenomes.
Pangenome ViewerPangenome Matrix (pattern of each gene group) and functional annotation files (GeneOntology)Open sourcePipeline2017
  • Ding W.
  • Baumdicker F.
  • Neher R.A.
panX: pan-genome analysis and exploration.
Pangenome ViewerSet of annotated bacterial strains (NCBI RefSeq, users input in GeneBank format)Open sourcePipeline2018
  • Sheikhizadeh S.
  • Schranz M.E.
  • Akdel M.
  • De Ridder D.
  • Smit S.
PanTools: representation, storage and exploration of pan-genomic data.
Pangenome & Panproteome ViewerAnnotation Files (GTF / GFF), Multiple Sequence Alignment File (FASTA), Genomic Sequence Files (FASTA), Variations adding (VCF files and a PAV table)Open sourceStand-alone2024
  • Holley G.
  • Melsted P.
Bifrost: highly parallel construction and indexing of colored and compacted de Bruijn graphs.
Pangenome ViewerAnnotation Files (GTF / GFF), Multiple Sequence Alignment File (FASTA), Genomic Sequence Files (FASTA),Open sourceStand-alone2024
PanGenome Graph Builder
  • Li H.
  • Feng X.
  • Chu C.
The design and construction of reference pangenome graphs with minigraph.
Pangenome ViewerAnnotation Files (GTF / GFF), Multiple Sequence Alignment File (FASTA), Genomic Sequence Files (FASTA)Open sourceStand-alone2024
  • Minkin I.
  • Pham S.
  • Medvedev P.
TwoPaCo: an efficient algorithm to build the compacted de Bruijn graph from many complete genomes.
Pangenome ViewerAnnotation Files (GTF / GFF), Multiple Sequence Alignment File (FASTA), Genomic Sequence Files (FASTA)Open sourceStand-alone2022
  • Hickey G.
  • Monlong J.
  • Ebler J.
  • Novak A.M.
  • Eizenga J.M.
  • Gao Y.
  • et al.
Pangenome graph construction from genome alignments with Minigraph-Cactus.
Pangenome ViewerAnnotation Files (GTF / GFF), Multiple Sequence Alignment File (FASTA), Genomic Sequence Files (FASTA)Open sourcePipeline2024
Jasper/Microbiome Maps
  • Valdes C.
  • Stebliankin V.
  • Ruiz-Perez D.
  • Park J.I.
  • Lee H.
  • Narasimhan G.
Microbiome maps: Hilbert curve visualizations of metagenomic profiles.
Abundance analysis / Taxonomy / Ecosystem visualizationAbundance profiles / OTU tableNot open sourceStand-alone2023
  • Estaki M.
  • Jiang L.
  • Bokulich N.A.
  • McDonald D.
  • González A.
  • Kosciolek T.
  • et al.
QIIME 2 enables comprehensive end‐to‐end analysis of diverse microbiome data and comparative studies with publicly available data.
Communities/ Taxonomyraw DNA sequence readsOpen sourceAnalysis package2024
  • McMurdie P.J.
  • Holmes S.
phyloseq: An R package for reproducible interactive analysis and graphics of microbiome census data.
Communities/ TaxonomyOTU table (operational taxonomic units), phylogenetic treeOpen sourceR package2013
  • Dhariwal A.
  • Chong J.
  • Habib S.
  • King I.L.
  • Agellon L.B.
  • Xia J.
MicrobiomeAnalyst: a web-based tool for comprehensive statistical, visual and meta-analysis of microbiome data.
Communities/ Taxonomy/PCA visualizationOTU table (operational taxonomic units), taxon list, gene list, Gene abundance table, BIOM fileOpen sourceWeb-based platform2024

Joseph Nathaniel Paulson HT. metagenomeSeq 2017. https://doi.org/10.18129/B9.BIOC.METAGENOMESEQ .

Communities/ Taxonomy/PCA visualizationTaxonomic or Functional Annotations, Count Data TableOpen sourceR package2019
  • Tamura K.
  • Stecher G.
  • Kumar S.
MEGA11: molecular evolutionary genetics analysis version 11.
TaxonomyMetagenome sequence data (FASTA), Phylogenetic Data (NEXUS, NEWICK)Open sourceCan be used as stand-alone and as part of a pipeline2022

Wilgenbusch J.C., Swofford D. Inferring Evolutionary Trees with PAUP *. CP in Bioinformatics 2003;00. https://doi.org/10.1002/0471250953.bi0604s00 .

TaxonomyMetagenome sequence data (FASTA), Phylogenetic Data (NEXUS, NEWICK)Proprietary, and thus commercialStand-alone2007
FigTreeTaxonomyPhylogenetic Data (NEXUS, NEWICK)Open sourceStand-alone2018
  • Letunic I.
  • Bork P.
Interactive Tree Of Life (iTOL): an online tool for phylogenetic tree display and annotation.
  • Zhou T.
  • Xu K.
  • Zhao F.
  • Liu W.
  • Li L.
  • Hua Z.
  • et al.
itol.toolkit accelerates working with iTOL (Interactive Tree of Life) by an automated generation of annotation files.
TaxonomyPhylogenetic Data (NEXUS, NEWICK)Open sourceWeb-based platform2023
  • Kreft Ł.
  • Botzki A.
  • Coppens F.
  • Vandepoele K.
  • Van Bel M.
PhyD3: a phylogenetic tree viewer with extended phyloXML support for functional genomics data visualization.
TaxonomyPhylogenetic Data (NEXUS, NEWICK)Open sourceWeb-based tool2017
  • Huson D.H.
  • Scornavacca C.
Dendroscope 3: an interactive tool for rooted phylogenetic trees and networks.
Taxonomy (viewer)Phylogenetic Data (NEXUS, NEWICK)Open sourceStand-alone2023
  • Saito R.
  • Smoot M.E.
  • Ono K.
  • Ruscheinski J.
  • Wang P.-L.
  • Lotia S.
  • et al.
A travel guide to Cytoscape plugins.
  • Shannon P.
  • Markiel A.
  • Ozier O.
  • Baliga N.S.
  • Wang J.T.
  • Ramage D.
  • et al.
Cytoscape: a software environment for integrated models of biomolecular interaction networks.
Network visualizationGraphs - Lists (source - destination)Open sourceStand-alone2023

Bastian M., Heymann S., Jacomy M. Gephi: An Open Source Software for Exploring and Manipulating Networks 2009. https://doi.org/10.13140/2.1.1341.1520 .

Network visualizationGraphs - Lists (source - destination)Open sourceStand-alone2023
  • Mrvar A.
  • Batagelj V.
Analysis and visualization of large networks with program package Pajek.
Network visualization

Large Networks
Has its file formatOpen sourceStand-alone2023
  • Karatzas E.
  • Baltoumas F.A.
  • Panayiotou N.A.
  • Schneider R.
  • Pavlopoulos G.A.
Arena3Dweb: interactive 3D visualization of multilayered networks.
  • Kokoli M.
  • Karatzas E.
  • Baltoumas F.A.
  • Schneider R.
  • Pafilis E.
  • Paragkamian S.
  • et al.
Arena3Dweb: interactive 3D visualization of multilayered networks supporting multiple directional information channels, clustering analysis and application integration.
Network visualization

3D Multilayered Networks
Network lists (source - destination but by defining their layers)Open sourceWeb server and stand-alone2023
  • Koutrouli M.
  • Karatzas E.
  • Papanikolopoulou K.
  • Pavlopoulos G.A.
NORMA: the network makeup artist — a web tool for network annotation visualization.
  • Karatzas E.
  • Koutrouli M.
  • Baltoumas F.A.
  • Papanikolopoulou K.
  • Bouyioukos C.
  • Pavlopoulos G.A.
The network makeup artist (NORMA-2.0): distinguishing annotated groups in a network using innovative layout strategies.
Network and group visualizationNetwork lists (source - destination) and annotation files (nodes and the annotation group they belong to)Open sourceWeb server and stand-alone2022

 6.1 质量控制

在宏基因组分析中,常见的做法是从原始序列数据生成支架或宏基因组组装基因组 (MAG)。此过程中关键的初始阶段是对原始数据进行质量控制 (QC)。这包括评估读数和碱基质量、修剪接头、分析 GC 分布、消除受污染的读数、解决富集偏差、生成质量指标以及各种其他步骤。为此目的创建了许多工具,生成上述统计数据的可视化表示,例如 FastQC、LongQC [
  • Fukasawa Y.
  • Ermini L.
  • Wang H.
  • Carty K.
  • Cheung M.-S.
LongQC: A Quality Control Tool for Third Generation Sequencing Long Read Data.
]、MinIONQC [
  • Lanfear R.
  • Schalamun M.
  • Kainer D.
  • Wang W.
  • Schwessinger B.
MinIONQC: fast and simple quality control for MinION sequencing data.
] 和 NanoPack [
  • De Coster W.
  • D’Hert S.
  • Schultz D.T.
  • Cruts M.
  • Van Broeckhoven C.
NanoPack: visualizing and processing long-read sequencing data.

 6.2 组装

基因组组装是一个复杂的过程,涉及将 DNA 序列拼凑在一起,本质上是构建生物体基因组数据的扩展 DNA 序列(重叠群),以试图重建其完整的基因组。生物体的基因组是其全部 DNA 内容,包括基因和非编码区。如果参考基因组可用,则将读数与该基因组进行比对,而在没有参考基因组的情况下,则采用从头组装。从头组装对于研究非模式生物、具有显着结构变异的基因组或具有不同基因组的群体尤其重要。

组装可视化是指基因组组装过程结果的图形表示,有助于研究人员了解组装基因组的结构和特征。可视化基因组组装对于质量评估、识别潜在问题和深入了解整体基因组架构至关重要。为此,可以使用大量工具进行从头宏基因组组装 [
  • Yang C.
  • Chowdhury D.
  • Zhang Z.
  • Cheung W.K.
  • Lu A.
  • Bian Z.
  • et al.
A review of computational tools for generating metagenome-assembled genomes from metagenomic sequencing data.
  • Gupta S.K.
  • Raza S.
  • Unno T.
Comparison of de-novo assembly tools for plasmid metagenome analysis.
  • Lapidus A.L.
  • Korobeynikov A.I.
Metagenomic data assembly – the way of decoding unknown microorganisms.
  • Vollmers J.
  • Wiegand S.
  • Kaster A.-K.
Comparing and evaluating metagenome assembly tools from a microbiologist’s perspective - not only size matters!.
  • Breitwieser F.P.
  • Lu J.
  • Salzberg S.L.
A review of methods and databases for metagenomic classification and assembly.
](图3)。 Omega [
  • Haider B.
  • Ahn T.-H.
  • Bushnell B.
  • Chai J.
  • Copeland A.
  • Pan C.
Omega: an Overlap-graph de novo assembler for metagenomics.
] 汇编器使用重叠图,专为宏基因组组装而开发。 Velvet [
  • Zerbino D.R.
Using the Velvet de novo assembler for short‐read sequencing technologies.
] 专为短读长测序数据而设计,其扩展 MetaVelvet [
  • Namiki T.
  • Hachiya T.
  • Tanaka H.
  • Sakakibara Y.
MetaVelvet: an extension of Velvet assembler to de novo metagenome assembly from short sequence reads.
] 旨在使用 de-布鲁因图。 MEGAHIT [
  • Li D.
  • Liu C.-M.
  • Luo R.
  • Sadakane K.
  • Lam T.-W.
MEGAHIT: an ultra-fast single-node solution for large and complex metagenomics assembly via succinct de Bruijn graph.
] 使用简洁的 de Bruijn 图来组装大型且复杂的宏基因组数据,而 BCALM 2 [
  • Chikhi R.
  • Limasset A.
  • Medvedev P.
Compacting de Bruijn graphs from sequencing data quickly and in low memory.
] 旨在通过实现 de Bruijn 的压缩来提高过程的可扩展性图表。使用 de Bruijn 图的另一个工具是 metaSPAdes [
  • Nurk S.
  • Meleshko D.
  • Korobeynikov A.
  • Pevzner P.A.
metaSPAdes: a new versatile metagenomic assembler.
],它构成了 SPAdes 的扩展,适应了复杂的宏基因组数据。 MetaCarvel [
  • Ghurye J.
  • Treangen T.
  • Fedarko M.
  • Hervey W.J.
  • Pop M.
MetaCarvel: linking assembly graph motifs to biological variants.
] 执行宏基因组组装,同时可以检测基因组变异。一些著名的可视化工具包括 ABySS-Explorer [
  • Nielsen C.B.
  • Jackman S.D.
  • Birol I.
  • Jones S.J.M.
ABySS-Explorer: visualizing genome sequence assemblies.
]、AGB [
  • Mikheenko A.
  • Kolmogorov M.
Assembly Graph Browser: interactive visualization of assembly graphs.
]、Bandage [
  • Wick R.R.
  • Schultz M.B.
  • Zobel J.
  • Holt K.E.
Bandage: interactive visualization of de novo genome assemblies.
]、GfaViz [
  • Gonnella G.
  • Niehus N.
  • Kurtz S.
GfaViz: flexible and interactive visualization of GFA sequence graphs.
]、 MetagenomeScope、PanGraphviewer [
  • Yuan Y.
  • Ma RK-K
  • Chan T.-F.
PanGraphViewer: a versatile tool to visualize pangenome graphs.
] 和 SGTK [
  • Kunyavskaya O.
  • Prjibelski A.D.
SGTK: a toolkit for visualization and assessment of scaffold graphs.
Fig. 3

图3(A-C)基于图形的大肠杆菌序列组装可视化。 K-12 底物 MG1655 与 (A) 绷带、(B) GFaviz 和 (C) AbyssExplorer (NCBI:txid511145)。 (D) 使用 MetaWrap 可视化基因组草案 bin 丰度的热图(生物项目登录号:PRJEB2054,ID:203783)。 (E) 使用 BinaRena 对 MAG 进行分箱,突出显示 214 个大肠杆菌箱(BioProject:PRJNA382010)。 (F) CGView:圆形格式的大肠杆菌 PA2(NCBI RefSeq 组装 GCF_000335355.2)的基因组重叠群查看器。 (G-H) 使用 (G) IMG 和 (H) UCSC 基因组查看器对大肠杆菌 K-12 进行支架可视化。 (I) 泛基因组图示例。

 6.3 分箱

Βinning 是宏基因组分析中的关键步骤,涉及对基因组片段(contigs)进行分组以重建微生物基因组草案(MAG)[
  • Yue Y.
  • Huang H.
  • Qi Z.
  • Dou H.-M.
  • Liu X.-Y.
  • Han T.-F.
  • et al.
Evaluating metagenomics tools for genome binning with real metagenomic datasets and CAMI datasets.
](图3)。诸如 MetaBAT [
  • Kang D.D.
  • Li F.
  • Kirton E.
  • Thomas A.
  • Egan R.
  • An H.
  • et al.
MetaBAT 2: an adaptive binning algorithm for robust and efficient genome reconstruction from metagenome assemblies.
  • Kang D.D.
  • Froula J.
  • Egan R.
  • Wang Z.
MetaBAT, an efficient tool for accurately reconstructing single genomes from complex microbial communities.
]、BinaRena [
  • Pavia M.J.
  • Chede A.
  • Wu Z.
  • Cadillo-Quiroz H.
  • Zhu Q.
BinaRena: a dedicated interactive platform for human-guided exploration and binning of metagenomes.
]、ICOveR [
  • Broeksema B.
  • Calusinska M.
  • McGee F.
  • Winter K.
  • Bongiovanni F.
  • Goux X.
  • et al.
ICoVeR – an interactive visualization tool for verification and refinement of metagenomic bins.
]、MyCC [
  • Lin H.-H.
  • Liao Y.-C.
Accurate binning of metagenomic contigs via automated clustering sequences using information of genomic signatures and marker genes.
  • Alneberg J.
  • Bjarnason B.S.
  • de Bruijn I.
  • Schirmer M.
  • Quick J.
  • Ijaz U.Z.
  • et al.
]、VizBin [
  • Laczny C.C.
  • Sternal T.
  • Plugaru V.
  • Gawron P.
  • Atashpendar A.
  • Margossian H.H.
  • et al.
VizBin - an application for reference-independent visualization and human-augmented binning of metagenomic data.
] 和 MetaWRAP [
  • Uritskiy G.V.
  • DiRuggiero J.
  • Taylor J.
MetaWRAP—a flexible pipeline for genome-resolved metagenomic data analysis.
] 提供帮助在此过程中,采用不同的可视化方法和交互界面来实现用户友好的探索和细化箱分配。 BinaRena [
  • Pavia M.J.
  • Chede A.
  • Wu Z.
  • Cadillo-Quiroz H.
  • Zhu Q.
BinaRena: a dedicated interactive platform for human-guided exploration and binning of metagenomes.
] 提供了一个全面的界面,允许重叠群的散点图可视化和 bin 关联编辑。同时,ICoveR [
  • Broeksema B.
  • Calusinska M.
  • McGee F.
  • Winter K.
  • Bongiovanni F.
  • Goux X.
  • et al.
ICoVeR – an interactive visualization tool for verification and refinement of metagenomic bins.
] 专注于基于使用平行坐标和降维图的多种分箱算法的分箱管理。 MyCC [
  • Lin H.-H.
  • Liao Y.-C.
Accurate binning of metagenomic contigs via automated clustering sequences using information of genomic signatures and marker genes.
] 通过虚拟机简化分箱,强调基于标记基因的聚类和基因组特征分析。 Gbtools [
  • Seah B.K.B.
  • Gruber-Vodicka H.R.
gbtools: interactive visualization of metagenome bins in R.
] 擅长可视化覆盖范围、GC 内容和分类注释,帮助 bin 注释和细化。 MetaWRAP [
  • Uritskiy G.V.
  • DiRuggiero J.
  • Taylor J.
MetaWRAP—a flexible pipeline for genome-resolved metagenomic data analysis.
]是一个模块化管道,可自动执行宏基因组数据处理、提取和细化高质量的数据箱,提供分类分配、丰度估计、功能注释和多功能可视化工具。这些工具共同满足了准确、高效分箱的需求,满足研究人员不同的专业水平并改善整体宏基因组分析结果 [
  • Yue Y.
  • Huang H.
  • Qi Z.
  • Dou H.-M.
  • Liu X.-Y.
  • Han T.-F.
  • et al.
Evaluating metagenomics tools for genome binning with real metagenomic datasets and CAMI datasets.

 6.4 社区检测

  • Saitou N.
  • Nei M.
The neighbor-joining method: a new method for reconstructing phylogenetic trees.
]和算术平均的未加权对组方法(UPGMA)。每次迭代都会在树状图中产生一个新的级别,并且切割阈值(通常是用户定义的或使用动态树切割或 PAC 贝叶斯等方法自动化)描绘出不同的集群。虽然层次聚类功能强大,但由于需要全距离矩阵且计算复杂度高,因此其在大规模分析中的适用性受到限制。

  • Xu R.
  • Wunsch D.
Survey of clustering algorithms.
  • Brohée S.
  • van Helden J.
Evaluation of clustering algorithms for protein-protein interaction networks.
  • Atkinson H.J.
  • Morris J.H.
  • Ferrin T.E.
  • Babbitt P.C.
Using Sequence Similarity Networks for Visualization of Relationships Across Diverse Protein Superfamilies.
],或平均核苷酸同一性 (ANI) 网络 [
  • Yoon S.-H.
  • Ha S.-M.
  • Lim J.
  • Kwon S.
  • Chun J.
A large-scale evaluation of algorithms to calculate average nucleotide identity.
])。可扩展的基于图的聚类,例如 HipMCL [
  • Azad A.
  • Pavlopoulos G.A.
  • Ouzounis C.A.
  • Kyrpides N.C.
  • Buluç A.
HipMCL: a high-performance parallel implementation of the Markov clustering algorithm for large-scale networks.
]、Louvain [
  • Blondel V.D.
  • Guillaume J.-L.
  • Lambiotte R.
  • Lefebvre E.
Fast unfolding of communities in large networks.
] 或 SPICi [
  • Jiang P.
  • Singh M.
SPICi: a fast clustering algorithm for large biological networks.
],可以直接应用于此类网络。值得注意的是,可以使用可扩展的生物信息学工具进行成对相似性比较,例如 PASTIS [

Selvitopi O., Ekanayake S., Guidi G., Pavlopoulos G.A., Azad A., Buluc A. Distributed Many-to-Many Protein Sequence Alignment using Sparse Matrices. SC20: International Conference for High Performance Computing, Networking, Storage and Analysis, Atlanta, GA, USA: IEEE; 2020, p. 1–14. https://doi.org/10.1109/SC41405.2020.00079 .

Selvitopi O., Ekanayake S., Guidi G., Awan M.G., Pavlopoulos G.A., Azad A., et al. Extreme-Scale Many-against-Many Protein Similarity Search. SC22: International Conference for High Performance Computing, Networking, Storage and Analysis, Dallas, TX, USA: IEEE; 2022, p. 1–12. https://doi.org/10.1109/SC41404.2022.00006 .

]、last [
  • Kiełbasa S.M.
  • Wan R.
  • Sato K.
  • Horton P.
  • Frith M.C.
Adaptive seeds tame genomic sequence comparison.
] 或 MMseqs [
  • Steinegger M.
  • Söding J.
MMseqs2 enables sensitive protein sequence searching for the analysis of massive data sets.
]。 ClusterMaker [
  • Lapidus A.L.
  • Korobeynikov A.I.
Metagenomic data assembly – the way of decoding unknown microorganisms.
] 是一个 Cytoscape 插件 [
  • Torun F.M.
  • Bilgin H.I.
  • Kaplan O.I.
MSABrowser: dynamic and fast visualization of sequence alignments, variations and annotations.

有多种工具可促进宏基因组分析中的聚类和可视化,例如 QIIME 2 [
  • Estaki M.
  • Jiang L.
  • Bokulich N.A.
  • McDonald D.
  • González A.
  • Kosciolek T.
  • et al.
QIIME 2 enables comprehensive end‐to‐end analysis of diverse microbiome data and comparative studies with publicly available data.
]、Anvi'o [
  • Eren A.M.
  • Esen Ö.C.
  • Quince C.
  • Vineis J.H.
  • Morrison H.G.
  • Sogin M.L.
  • et al.
Anvi’o: an advanced analysis and visualization platform for ‘omics data.
] 和 Phyloseq [
  • McMurdie P.J.
  • Holmes S.
phyloseq: An R package for reproducible interactive analysis and graphics of microbiome census data.
]。例如,微生物生态学定量洞察(QIIME,版本 2)工具集成了用于微生物群落分析的层次聚类方法,并通过交互式图提供可视化[
  • Estaki M.
  • Jiang L.
  • Bokulich N.A.
  • McDonald D.
  • González A.
  • Kosciolek T.
  • et al.
QIIME 2 enables comprehensive end‐to‐end analysis of diverse microbiome data and comparative studies with publicly available data.
  • Caporaso J.G.
  • Kuczynski J.
  • Stombaugh J.
  • Bittinger K.
  • Bushman F.D.
  • Costello E.K.
  • et al.
QIIME allows analysis of high-throughput community sequencing data.
]。此外,Anvi'o [
  • Eren A.M.
  • Esen Ö.C.
  • Quince C.
  • Vineis J.H.
  • Morrison H.G.
  • Sogin M.L.
  • et al.
Anvi’o: an advanced analysis and visualization platform for ‘omics data.
]不仅结合了层次聚类,还提供了用于探索和可视化宏基因组数据的交互界面,增强了复杂微生物群落结构的可解释性。凭借其广泛的交互式可视化功能,Anvi'o [
  • Eren A.M.
  • Esen Ö.C.
  • Quince C.
  • Vineis J.H.
  • Morrison H.G.
  • Sogin M.L.
  • et al.
Anvi’o: an advanced analysis and visualization platform for ‘omics data.
] 是一个综合平台,集成了数据支持的微生物学最先进的计算策略的许多方面,例如系统基因组学、泛基因组学、以用户友好且无缝的方式进行宏基因组学、宏转录组学、基因组学和微生物群体遗传学。 Phyloseq [
  • McMurdie P.J.
  • Holmes S.
phyloseq: An R package for reproducible interactive analysis and graphics of microbiome census data.
] 是一个用于分析和可视化微生物组数据的 R 包。它提供了一系列可视化选项,包括交互式图和热图,以探索微生物群落的多样性和组成。

主成分分析 (PCA) [
  • Jolliffe I.T.
  • Cadima J.
Principal component analysis: a review and recent developments.
] 有助于突出微生物群落之间的差异,根据样本的组成和丰度概况提供样本之间关系的整体视图。执行 PCA 分析和可视化的工具非常有用。 EMPeror [
  • Vázquez-Baeza Y.
  • Pirrung M.
  • Gonzalez A.
  • Knight R.
EMPeror: a tool for visualizing high-throughput microbial community data.
] 是嵌入到 QIIME 套件中的最有用的 PCA 分析工具之一。

当前版本的 QIIME2 [
  • Estaki M.
  • Jiang L.
  • Bokulich N.A.
  • McDonald D.
  • González A.
  • Kosciolek T.
  • et al.
QIIME 2 enables comprehensive end‐to‐end analysis of diverse microbiome data and comparative studies with publicly available data.
] 支持 PCA 可视化,支持 PCA 结果的交互式探索。 QIIME2 提供动态和可定制的绘图,增强宏基因组数据的可解释性。用于 PCA 分析和可视化的其他工具包括 MicrobiomeAnalyst [
  • Dhariwal A.
  • Chong J.
  • Habib S.
  • King I.L.
  • Agellon L.B.
  • Xia J.
MicrobiomeAnalyst: a web-based tool for comprehensive statistical, visual and meta-analysis of microbiome data.
] 和 MetagenomeSeq [

Joseph Nathaniel Paulson HT. metagenomeSeq 2017. https://doi.org/10.18129/B9.BIOC.METAGENOMESEQ .

]。 MicrobiomeAnalyst [
  • Dhariwal A.
  • Chong J.
  • Habib S.
  • King I.L.
  • Agellon L.B.
  • Xia J.
MicrobiomeAnalyst: a web-based tool for comprehensive statistical, visual and meta-analysis of microbiome data.
] 是一个基于网络的平台,集成了多种统计和生物信息学工具。它包括 PCA 可视化作为其多元统计分析套件的一部分,为探索微生物群落的分离和聚类提供交互式可视化。 MetagenomeSeq 是一个 R 软件包,专为宏基因组测序数据的统计分析而设计。它采用主成分分析(PCA)作为探索样本差异的方法。研究人员可以利用该软件包生成 PCA 图,并深入了解影响微生物群落数据中观察到的模式的因素。

6.5 基因组/重叠群查看器

基因组查看器是用于可视化和分析基因组数据的工具,为研究人员、科学家和生物信息学家提供遗传信息的图形表示,使他们能够探索、解释和理解基因组的复杂性 [
  • Pavlopoulos G.A.
  • Malliarakis D.
  • Papanikolaou N.
  • Theodosiou T.
  • Enright A.J.
  • Iliopoulos I.
Visualizing genome and systems biology: technologies, tools, implementation techniques and trends, past, present and future.
]。基因组浏览器工具,例如 CGViewer.js [
  • Stothard P.
  • Grant J.R.
  • Van Domselaar G.
Visualizing and comparing circular genomes using the CGView family of tools.
]、Elviz [
  • Cantor M.
  • Nordberg H.
  • Smirnova T.
  • Hess M.
  • Tringe S.
  • Dubchak I.
Elviz – exploration of metagenome assemblies with an interactive visualization tool.
]、IMG/M [
  • Chen I.-M.A.
  • Chu K.
  • Palaniappan K.
  • Pillay M.
  • Ratner A.
  • Huang J.
  • et al.
IMG/M v.5.0: an integrated data management and comparative analysis system for microbial genomes and microbiomes.
]、IMG/VR [
  • Camargo A.P.
  • Nayfach S.
  • Chen I.-M.A.
  • Palaniappan K.
  • Ratner A.
  • Chu K.
  • et al.
IMG/VR v4: an expanded database of uncultivated virus genomes within a framework of extensive functional, taxonomic, and ecological metadata.
]、IGV [
  • Thorvaldsdottir H.
  • Robinson J.T.
  • Mesirov J.P.
Integrative Genomics Viewer (IGV): high-performance genomics data visualization and exploration.
]、UCSC 基因组浏览器 [
  • Nassar L.R.
  • Barber G.P.
  • Benet-Pagès A.
  • Casper J.
  • Clawson H.
  • Diekhans M.
  • et al.
The UCSC Genome Browser database: 2023 update.
]、GDV、JBrowse [
  • Buels R.
  • Yao E.
  • Diesh C.M.
  • Hayes R.D.
  • Munoz-Torres M.
  • Helt G.
  • et al.
JBrowse: a dynamic web platform for genome visualization and analysis.
]、Avio [
  • Eren A.M.
  • Esen Ö.C.
  • Quince C.
  • Vineis J.H.
  • Morrison H.G.
  • Sogin M.L.
  • et al.
Anvi’o: an advanced analysis and visualization platform for ‘omics data.
]、MetaErg [
  • Dong X.
  • Strous M.
An integrated pipeline for annotation and visualization of metagenomic contigs.
]、平板电脑 [
  • Milne I.
  • Bayer M.
  • Cardle L.
  • Shaw P.
  • Stephen G.
  • Wright F.
  • et al.
Tablet—next generation sequence assembly visualization.
]、Strudel [
  • Bayer M.
  • Milne I.
  • Stephen G.
  • Shaw P.
  • Cardle L.
  • Wright F.
  • et al.
Comparative visualization of genetic and physical maps with Strudel.
] 和 CRAMER [ < b13>]为基因组数据的探索提供了多种优势和功能[
  • Wang J.
  • Kong L.
  • Gao G.
  • Luo J.
A brief introduction to web-based genome browsers.
]。这些工具可以通过宏基因组组装进行多维导航,绘制 GC 含量、相对丰度、系统发育隶属关系和重叠群长度等参数。它们通过实时导航、搜索、过滤和从社区概况深入到单个基因注释来促进交互式探索。此外,这些浏览器支持各种数据类型的灵活集成,包括临床数据、比对序列读取、突变、拷贝数、RNAi 筛选、基因表达和基因组注释。用户可以从跨多个分辨率尺度的大型数据集的有效探索中受益,类似于 Google 地图的无缝缩放和平移功能。这些工具提供可定制的曲目显示、元数据访问、功能上下文菜单以及多样化的曲目选择方法,从而增强用户交互和数据可视化。

  • Eizenga J.M.
  • Novak A.M.
  • Sibbesen J.A.
  • Heumos S.
  • Ghaffaari A.
  • Hickey G.
  • et al.
Pangenome Graphs.
  • Andreace F.
  • Lechat P.
  • Dufresne Y.
  • Chikhi R.
Comparing methods for constructing and representing human pangenome graphs.
  • Vernikos G.S.
A Review of Pangenome Tools and Recent Studies.
]。其中,流行的泛基因组查看器包括 Panache [
  • Durant É.
  • Sabot F.
  • Conte M.
  • Rouard M.
Panache: a web browser-based viewer for linearized pangenomes.
]、Pan-Tetris [
  • Hennig A.
  • Bernhardt J.
  • Nieselt K.
Pan-Tetris: an interactive visualisation for Pan-genomes.
]、PanViz [
  • Pedersen T.L.
  • Nookaew I.
  • Wayne Ussery D.
  • Månsson M.
PanViz: interactive visualization of the structure of functionally annotated pangenomes.
] 和 PanX [
  • Ding W.
  • Baumdicker F.
  • Neher R.A.
panX: pan-genome analysis and exploration.
]、Roary [
  • Page A.J.
  • Cummins C.A.
  • Hunt M.
  • Wong V.K.
  • Reuter S.
  • Holden M.T.G.
  • et al.
Roary: rapid large-scale prokaryote pan genome analysis.
]、Panseq [
  • Laing C.
  • Buchanan C.
  • Taboada E.N.
  • Zhang Y.
  • Kropinski A.
  • Villegas A.
  • et al.
Pan-genome sequence analysis using Panseq: an online tool for the rapid analysis of core and accessory genomic regions.
]、PanGraphViewer [
  • Yuan Y.
  • Ma RK-K
  • Chan T.-F.
PanGraphViewer: a versatile tool to visualize pangenome graphs.
]、Pantools [
  • Sheikhizadeh S.
  • Schranz M.E.
  • Akdel M.
  • De Ridder D.
  • Smit S.
PanTools: representation, storage and exploration of pan-genomic data.
]、Bifrost [
  • Holley G.
  • Melsted P.
Bifrost: highly parallel construction and indexing of colored and compacted de Bruijn graphs.
]、PanGenome Graph Builder [
  • Li H.
  • Feng X.
  • Chu C.
The design and construction of reference pangenome graphs with minigraph.
]、Minigraph-Cactus [
  • Hickey G.
  • Monlong J.
  • Ebler J.
  • Novak A.M.
  • Eizenga J.M.
  • Gao Y.
  Fig. 1
    Fig. 1
  Fig. 2
    Fig. 2
  Fig. 3
    Fig. 3
  Fig. 4
    Fig. 4
  Fig. 5
    Fig. 5


    Graphical AbstractA. Minimum-Evolution tree - Adh sequence data from eleven fruit fly species B. iTol circular tree - Alignment of temporally sampled data for using RelTime with Dated Tips (RTDT) to estimate times of divergence C. iTOL unrooted tree - Alignment of temporally sampled data for using RelTime with Dated Tips (RTDT) to estimate times of divergence. D. Pavian E. Krona sunburst chart - Taxonomic abundance of skin microbiome samples for 4 consecutive days F. iTOL rectangular tree - Adh sequence data from eleven fruit fly species.
    Fig. 1Different steps of a typical metagenomic analysis: (i) Marker gene detection and taxonomic assignment, (ii) De novo assembly towards the generation of larger contigs, and (iii) Map to reference genome (if it exists).
    Fig. 2Different visualization concepts. (A) Circos diagram. (B) Upset plot & its corresponding Venn diagram. (C) HeatMap. (D) Bar chart (species). (E) Network. (F) Sunburst chart (Krona). (G) Treemap. (H) Phylogenetic tree. (I) Sankey plot. (J) Bubble chart. (K) Hive plot. (L) PCA map. All plots have been created using simulated data.
    Fig. 3(A-C) Graph-based visualization of sequence assembly of Escherichia coli str. K-12 substrate MG1655 with (A) Bandage, (B) GFAviz, and (C) AbyssExplorer (NCBI:txid511145). (D) Heatmap visualizing the bin abundances of draft genomes using MetaWrap (Bioproject Accession: PRJEB2054, ID: 203783). (E) Binning of MAGs highlighting 214 bins of E.coli using BinaRena (BioProject: PRJNA382010). (F) CGView: Genome Contigs Viewer of Escherichia coli PA2 (NCBI RefSeq assembly GCF_000335355.2) in a circular format. (G-H) Scaffold visualization of E.coli K-12 with (G) IMG and (H) UCSC genome viewers. (I) Example of a pangenome graph.
    Fig. 4(A) Sunburst chart (Krona) showing taxonomy. (B) Taxonomy with Sankey plot (Pavian). (C) Tree of Life visualized by iTOL. (D) Taxonomy visualized as a Bubble chart. (E) Taxonomy visualized as a Treemap. (F) Taxonomic Ordering with the use of Hilbert curves visualized by Jasper/Microbiome Maps. All the plots above have been created using example data provided with each tool.
    Fig. 5(A-C) Various network visualization schemes for data retrieved from NMPFamsDB. (A) 2D Network visualization of NMPF distribution across different biomes, rendered using Gephi. (B) 3D, multi-layered network visualization of NMPFs associated with 4 human microbiomes, as well as additional annotation (sample type and availability of 3D model), created using Arena3Dweb. (C) A gene co-occurrence network describing the gene neighborhood of a novel metagenome protein family (F006270), constructed with data from NMPFamsDB and rendered using NORMA. The functional annotation of F006270’s neighboring genes is presented in the form of colored groups. (D) Gene neighborhood visualization for multiple MAGs through synteny conservation analysis, rendered using GeCoViz and the FESNov catalog. (E) Tree visualization of metagenome ecosystems, using the GOLD classification system. The number of metagenomic datasets associated with each ecosystem is given in parentheses. (F) Chronological progression of different SARS-Cov-2 strains in the form of a histogram, rendered using NextStrain. (G-H) Map visualizations of the geographical distribution across Europe (G) and global dispersion patterns of COVID-19 (H) rendered using NextStrain.
