这是用户在 2024-6-26 8:20 为 https://www.csbj.org/article/S2001-0370(24)00143-0/fulltext#secsect0035 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?


宏基因组和宏转录组数据可视化:全面综述


  • 埃莱妮·阿普拉基杜 1
    Author Footnotes
    1 Equally contributing authors
    Eleni Aplakidou
    Footnotes
    1 Equally contributing authors
    Affiliations
    Institute for Fundamental Biomedical Research, BSRC "Alexander Fleming", Vari, Greece

    Department of Informatics and Telecommunications, Data Science and Information Technologies program, University of Athens, 15784 Athens, Greece
    Search for articles by this author

  • 尼古拉斯·韦尔古利迪斯 1
    Author Footnotes
    1 Equally contributing authors
    Nikolaos Vergoulidis
    Footnotes
    1 Equally contributing authors
    Affiliations
    Institute for Fundamental Biomedical Research, BSRC "Alexander Fleming", Vari, Greece
    Search for articles by this author
  •   玛丽亚·查萨皮 1
    Author Footnotes
    1 Equally contributing authors
    Maria Chasapi
    Footnotes
    1 Equally contributing authors
    Affiliations
    Institute for Fundamental Biomedical Research, BSRC "Alexander Fleming", Vari, Greece

    Department of Informatics and Telecommunications, Data Science and Information Technologies program, University of Athens, 15784 Athens, Greece
    Search for articles by this author
  • Nefeli K. Venetsianou
    Affiliations
    Institute for Fundamental Biomedical Research, BSRC "Alexander Fleming", Vari, Greece
    Search for articles by this author
  • Maria Kokoli
    Affiliations
    Institute for Fundamental Biomedical Research, BSRC "Alexander Fleming", Vari, Greece
    Search for articles by this author
  • Eleni Panagiotopoulou
    Affiliations
    Institute for Fundamental Biomedical Research, BSRC "Alexander Fleming", Vari, Greece

    Department of Informatics and Telecommunications, Data Science and Information Technologies program, University of Athens, 15784 Athens, Greece
    Search for articles by this author
  • Ioannis Iliopoulos
    Affiliations
    Department of Basic Sciences, School of Medicine, University of Crete, 71003 Heraklion, Greece
    Search for articles by this author
  • Evangelos Karatzas
    Affiliations
    Institute for Fundamental Biomedical Research, BSRC "Alexander Fleming", Vari, Greece

    European Molecular Biology Laboratory, European Bioinformatics Institute (EMBL-EBI), Wellcome Genome Campus, Hinxton, Cambridge, UK
    Search for articles by this author
  • Evangelos Pafilis
    Affiliations
    Institute of Marine Biology, Biotechnology and Aquaculture (IMBBC), Hellenic Centre for Marine Research (HCMR), Heraklion, Greece
    Search for articles by this author
  • Ilias Georgakopoulos-Soares
    Affiliations
    Institute for Personalized Medicine, Department of Biochemistry and Molecular Biology, The Pennsylvania State University College of Medicine, Hershey, PA, USA
    Search for articles by this author
  • Nikos C. Kyrpides
    Affiliations
    DOE Joint Genome Institute, Lawrence Berkeley National Laboratory, Berkeley, CA, USA
    Search for articles by this author

  • 乔治·A·帕夫洛普洛斯 2
    Author Footnotes
    2 Present Address: Georgios A. Pavlopoulos; Biomedical Sciences Research Center "Alexander Fleming", 34 Fleming Street, Vari, 16672, Greece
    Georgios A. Pavlopoulos
    Correspondence
    Corresponding author at: Institute for Fundamental Biomedical Research, BSRC "Alexander Fleming", Vari, Greece.
    Footnotes
    2 Present Address: Georgios A. Pavlopoulos; Biomedical Sciences Research Center "Alexander Fleming", 34 Fleming Street, Vari, 16672, Greece
    Affiliations
    Institute for Fundamental Biomedical Research, BSRC "Alexander Fleming", Vari, Greece

    Institute for Personalized Medicine, Department of Biochemistry and Molecular Biology, The Pennsylvania State University College of Medicine, Hershey, PA, USA

    Center of New Biotechnologies & Precision Medicine, Department of Medicine, School of Health Sciences, National and Kapodistrian University of Athens, Greece

    Hellenic Army Academy, 16673 Vari, Greece
    Search for articles by this author

  • 福蒂斯·A·巴尔图马斯 2
    Author Footnotes
    2 Present Address: Georgios A. Pavlopoulos; Biomedical Sciences Research Center "Alexander Fleming", 34 Fleming Street, Vari, 16672, Greece
    Fotis A. Baltoumas
    Correspondence
    Corresponding author.
    Footnotes
    2 Present Address: Georgios A. Pavlopoulos; Biomedical Sciences Research Center "Alexander Fleming", 34 Fleming Street, Vari, 16672, Greece
    Affiliations
    Institute for Fundamental Biomedical Research, BSRC "Alexander Fleming", Vari, Greece
    Search for articles by this author
  • Author Footnotes
    1 Equally contributing authors
    2 Present Address: Georgios A. Pavlopoulos; Biomedical Sciences Research Center "Alexander Fleming", 34 Fleming Street, Vari, 16672, Greece

开放获取发布:2024年5月2日DOI:https://doi.org/10.1016/j.csbj.2024.04.060IF:6.0 Q1
Plum Print visual indicator of research metrics
 PlumX 指标
  • Captures
    • Readers: 16
  • Social Media
    • Shares, Likes & Comments: 19
see details

 抽象的


宏基因组学和宏转录组学领域涉及完整核苷酸序列的检查、基因鉴定以及不同生物体或环境样本中潜在生物学功能的分析。尽管宏基因组学有巨大的发现机会,但序列数据的庞大数量和复杂性常常给处理分析和可视化带来挑战。本文重点介绍了高级可视化工具在有效探索、查询和分析这些复杂数据集方面的关键作用。该文章强调了可访问性的重要性,根据其预期应用对各种可视化工具进行了分类,并强调了它们在使生物信息学家和非生物信息学家能够有效地解释元组学数据并从中获取见解方面的实用性。

 图形概要

ga1
Graphical Abstract
A. 最小进化树 - 来自 11 个果蝇物种的 Adh 序列数据 B. iTol 圆形树 - 时间采样数据的对齐,用于使用带有日期提示 (RTDT) 的 RelTime 来估计分歧时间 C. iTOL 无根树 - 时间采样的对齐使用带有日期提示的 RelTime (RTDT) 来估计分歧时间的数据。 D. Pavian E. Krona sunburst 图 - 连续 4 天皮肤微生物组样本的分类丰度 F. iTOL 矩形树 - 来自 11 种果蝇物种的 Adh 序列数据。

 关键词

 一、简介


地球上微生物细胞的总数估计为 10 30 [
  • Turnbaugh P.J.
  • Gordon J.I.
An invitation to the marriage of metagenomics and metabolomics.
,
  • Rappuoli R.
  • Young P.
  • Ron E.
  • Pecetta S.
  • Pizza M.
Save the microbes to save the planet. A call to action of the International Union of the Microbiological Societies (IUMS).
],超过了我们银河系的恒星数量(约 1000 亿个)星星)。微生物在自然界中无处不在,对地球生物圈具有重大影响。从人类到植物的每一种生物体都会与环境中的微生物相互作用。然而,由于培养它们的挑战[
  • Steen A.D.
  • Crits-Christoph A.
  • Carini P.
  • DeAngelis K.M.
  • Fierer N.
  • Lloyd K.G.
  • et al.
High proportions of bacteria and archaea across most biomes remain uncultured.
  • Wade W.
Unculturable bacteria--the uncharacterized organisms that cause oral infections.
],> 98%的惊人比例在很大程度上仍未被探索。仅在人类肠道中,微生物种群估计就有 10 13 到 10 14 个微生物细胞,超过了人类细胞的数量 [
  • Kho Z.Y.
  • Lal S.K.
The human gut microbiome – a potential controller of wellness and disease.
]。对宏基因组/宏转录组中基因组材料的研究使研究人员能够深入了解复杂微生物群落中特定微生物的基因组特征、功能潜力和生态作用。它有助于我们了解微生物多样性、相互作用和生态系统的整体功能。

宏基因组学和宏转录组学[
  • Di Carlo P.
  • Serra N.
  • Alduina R.
  • Guarino R.
  • Craxì A.
  • Giammanco A.
  • et al.
A systematic review on omics data (metagenomics, metatranscriptomics, and metabolomics) in the role of microbiome in gallbladder disease.
  • Aguiar-Pulido V.
  • Huang W.
  • Suarez-Ulloa V.
  • Cickovski T.
  • Mathee K.
  • Narasimhan G.
Metagenomics, metatranscriptomics, and metabolomics approaches for microbiome analysis: supplementary issue: bioinformatics methods and applications for big metagenomics data.
]是研究微生物群落和非培养生物的关键方法。宏基因组涵盖特定环境中微生物群落的集体基因组内容,并包括所有存在的微生物的总遗传信息,包括细菌、古细菌、病毒和真核微生物,如原生动物或单细胞藻类和真菌。宏基因组分析 [
  • Nam N.
  • Do H.
  • Loan Trinh K.
  • Lee N.
Metagenomics: an effective approach for exploring microbial diversity and functions.
  • Simon C.
  • Daniel R.
Metagenomic analyses: past and future trends.
  • Chistoserdova L.
Recent progress and new challenges in metagenomics for biotechnology.
  • Navgire G.S.
  • Goel N.
  • Sawhney G.
  • Sharma M.
  • Kaushik P.
  • Mohanta Y.K.
  • et al.
Analysis and Interpretation of metagenomics data: an approach.
] 需要对直接从环境样本中提取的 DNA 进行测序和分析,无需用于分离和培养个体生物体。这种方法使研究人员能够探索整个微生物群落的遗传多样性和功能潜力。

同样,元转录组学 [
  • Shakya M.
  • Lo C.-C.
  • Chain P.S.G.
Advances and challenges in metatranscriptomic analysis.
  • Zhang
  • Thompson Y.
  • Branck K.N.
  • Yan Yan T.
  • Nguyen L.H.
  • Franzosa E.A.
  • et al.
Metatranscriptomics for the human microbiome and microbial community functional profiling.
  • Bashiardes S.
  • Zilberman-Schapira G.
  • Elinav E.
Use of metatranscriptomics in microbiome research.
] 是一个深入研究环境样本中微生物群落基因表达复杂世界的研究领域。与关注个体生物体基因表达的传统转录组学不同,宏转录组学检查给定样本中所有微生物的集体基因表达。宏转录组代表微生物在特定环境中、特定时间点产生的所有 RNA 转录本(例如 mRNA、rRNA、tRNA)的集合,并提供对微生物群落的基因表达模式和活动的深入了解。典型的宏转录组分析涉及 RNA 转录本的测序和分析,揭示哪些基因正在积极转录。宏转录组学的主要目标之一是阐明自然栖息地微生物群落内发生的功能活动和代谢过程。通过分析转录组,研究人员可以获得关于哪些基因活跃表达、它们如何受到调节以及微生物群落如何应对环境变化的宝贵见解。总体而言,宏转录组学为探索不同环境中微生物群落的功能潜力和活动提供了强大的工具,为它们在生态系统中的作用和相互作用及其对人类健康和生物技术的影响提供了宝贵的见解。

宏基因组组装基因组(MAG)是指从宏基因组数据集中重建特定微生物的个体基因组(在不同的完成度和可能的污染水平)的过程。由于宏基因组样本的复杂性和多样性,从宏基因组中提取基因组的过程具有挑战性。然而,测序技术和计算方法的进步使得从宏基因组中提取和表征基因组的准确性越来越高。这些提取的基因组可以为微生物群落的多样性和功能提供有价值的见解,这有助于发现新的生物体、代谢途径和潜在的生物技术应用。

典型的鸟枪法宏基因组分析涉及以下步骤(图 1):

  • 测序:最初,研究人员对样本进行宏基因组测序,生成包含来自环境中存在的各种微生物的 DNA 片段的数据集。

  • 质量控制:检查原始宏基因组序列的质量并清除接头和引物等污染物。

  • 组装/读取映射:在此步骤中,比对短 DNA 片段(读取)以重建较长的基因组序列。使用各种组装方法将清理后的序列组装成重叠群和支架,例如从头组装(不存在参考基因组)、基于参考的组装(如果存在参考基因组)或混合组装(参考引导和部分从头组装) 。

  • 分箱和基因组重建:根据核苷酸组成、覆盖范围和其他特征的相似性,将组装的重叠群(连续 DNA 序列)分组为类似的操作分类单元。通过分箱重建的基因组通常称为宏基因组组装基因组(MAG)

  • 注释:MAG 注释有与分离基因组类似的功能和分类信息。
Fig. 1

图 1 典型宏基因组分析的不同步骤:(i) 标记基因检测和分类分配,(ii) 从头组装以生成更大的重叠群,以及 (iii) 映射到参考基因组(如果存在)。

同样,典型的宏转录组学分析涉及以下步骤:

  • 样品采集和 RNA 提取:样品从感兴趣的环境中采集,例如土壤、水或人体肠道。然后,从收集的样本中提取总RNA以捕获活跃转录的基因。

  • cDNA 合成:在此步骤中,使用逆转录将提取的 RNA 转化为互补 DNA (cDNA)。

  • 测序文库制备:在此步骤中,通常使用片段化和接头连接等方法制备 cDNA 样品的测序文库。

  • 测序:使用 Illumina 或 PacBio 等平台对准备好的文库进行高通量测序。

  • 数据预处理:与宏基因组学一样,需要进行数据预处理,例如接头序列修剪、低质量读数去除和过滤核糖体 RNA (rRNA) 序列。

  • 读取映射:将测序的读取映射到参考基因组或转录组,以识别表达的基因并量化其丰度。

  • 差异表达分析:在此步骤中,鉴定在不同条件下或不同样本之间差异表达的基因。

  • 功能注释和通路分析:在此步骤中,根据 NCBI 的 RefSeq [
    • Haft D.H.
    • Badretdin A.
    • Coulouris G.
    • DiCuccio M.
    • Durkin A.S.
    • Jovenitti E.
    • et al.
    RefSeq and the prokaryotic genome annotation pipeline in the age of metagenomes.
    ] 或 UniProt [
    UniProt Consortium
    UniProt: the universal protein knowledgebase in 2021.
    ] 等数据库对差异表达基因进行注释,以分配假定的功能以及功能差异表达的途径富集。目的是了解起作用的生物过程。

在这篇综述中,我们重点关注旨在分析和显示宏基因组数据的宏基因组可视化工具,包括 DNA 序列、功能信息和元数据。可视化在宏基因组学领域至关重要,因为它使研究人员能够了解复杂的微生物群落结构、分类组成和功能潜力。尽管已经开发了几种可视化工具来帮助研究人员探索和解释宏基因组数据,但宏基因组可视化领域仍处于起步阶段,复杂性、功能性、可扩展性和互操作性方面的挑战仍然存在。尽管如此,宏基因组可视化可以实现几个重要任务的自动化:

  • 对大量数据集进行交互式、直观的探索和可视化有助于识别数据中的模式和趋势。

  • 多个样本的比较有助于识别相似性和差异,从而增强对宏基因组数据固有的多样性和复杂性的理解。

  • 各种数据类型(包括功能、分类和元数据)的集成有助于全面理解宏基因组数据集。

  • 研究人员之间共享数据和结果可以促进更强有力的合作,并提高研究工作的可重复性。


2. 数据库和存储库


目前,可用的宏基因组和宏转录组数据集,包括原始读数、测序支架、预测基因和注释以及相关元数据,托管在各种公开可用的存储库和数据库中[
  • Dudhagara P.
  • Bhavsar S.
  • Bhagat C.
  • Ghelani A.
  • Bhatt S.
  • Patel R.
Web resources for metagenomics studies.
](表1)。其中包括标准序列档案,例如 GenBank [
  • Sayers E.W.
  • Cavanaugh M.
  • Clark K.
  • Pruitt K.D.
  • Schoch C.L.
  • Sherry S.T.
  • et al.
GenBank.
]、日本 DNA 数据库 (DDBJ) [
  • Tanizawa Y.
  • Fujisawa T.
  • Kodama Y.
  • Kosuge T.
  • Mashima J.
  • Tanjo T.
  • et al.
DNA Data Bank of Japan (DDBJ) update report 2022.
] 和欧洲核苷酸档案 (ENA) [
  • Cummins C.
  • Ahamed A.
  • Aslam R.
  • Burgin J.
  • Devraj R.
  • Edbali O.
  • et al.
The European Nucleotide Archive in 2021.
] 或基因组在线数据库 (GOLD) [
  • Mukherjee S.
  • Stamatis D.
  • Li C.T.
  • Ovchinnikova G.
  • Bertsch J.
  • Sundaramurthi J.C.
  • et al.
Twenty-five years of Genomes OnLine Database (GOLD): data updates and new features in v.9.
  • Chen I.-M.A.
  • Chu K.
  • Palaniappan K.
  • Ratner A.
  • Huang J.
  • Huntemann M.
  • et al.
The IMG/M data management and analysis system v.7: content updates and new features.
]、MGnify [
  • Mitchell A.L.
  • Almeida A.
  • Beracochea M.
  • Boland M.
  • Burgin J.
  • Cochrane G.
  • et al.
MGnify: the microbiome analysis resource in 2020.
]、SPIRE [
  • Schmidt T.S.B.
  • Fullam A.
  • Ferretti P.
  • Orakov A.
  • Maistrenko O.M.
  • Ruscheweyh H.-J.
  • et al.
SPIRE: a searchable, planetary-scale microbiome REsource.
] 和 MG-RAST [
  • Meyer F.
  • Bagchi S.
  • Chaterji S.
  • Gerlach W.
  • Grama A.
  • Harrison T.
  • et al.
MG-RAST version 4-lessons learned from a decade of low-budget ultra-high-throughput metagenome analysis.
]。

表 1 数据库和存储库。
 数据库名称 描述 数据类型 无障碍 用户提交
 基因库
测序数据存档

基因组、宏基因组、宏转录组、扩增子
 公开访问Yes

序列读取存档 (SRA)

测序数据存档
 原始测序数据 公开访问Yes

欧洲核苷酸档案 (ENA)

所有公开可用的核苷酸序列的存档

基因组、宏基因组、宏转录组、扩增子
 公开访问Yes

DOE 系统生物学知识库 (KBase)

用于共享、整合和分析微生物、植物和群落数据的平台

基因组、宏基因组、宏转录组、扩增子
 公开访问Yes

基因组在线数据库(黄金)

基因组项目和元数据存储库(生态系统)
 生态系统 公开访问Yes

综合微生物基因组和微生物组 (IMG/M)

社区驱动的存储库,托管培养和未培养微生物类群的基因组、宏基因组、宏转录组、扩增子、质粒和基因组片段

宏基因组、宏转录组、扩增子、基因组
 公开访问Yes
MGnifyArchive for exploration, and analysis, of microbiome sequencing datasetsMetagenomes, Metatranscriptomes, Amplicons, MAGsPublicly accessibleYes
Metagenome RAST (MG-RAST)Microbiome repository with a unified pipeline for automated analysis of metagenomic samplesMetagenomesRegistered usersYes
Integrated Microbial Viral Genomes

(IMG/VR)
Viral genomes and metagenomesViral Genomes, Viral MetagenomesPublicly accessibleYes
NMPFamsDBNovel protein families from IMG’s metagenomes and metatranscriptomesProtein FamiliesPublicly accessibleNo
FESnov catalogCatalog reporting functionally unannotated proteins derived from MAGsProteinsPublicly accessibleNo
NIH Human Microbiome ProjectMetagenomes from human host-associated systems, such as the gut microbiomeHuman Microbiome MetagenomesPublicly accessibleNo
TerrestrialMetagenomeDBAnnotation of metagenomes obtained from soil samplesSoil MetagenomesPublicly accessibleYes
MarineMetagenomeDBAnnotation of metagenomes obtained from marine samplesMarine MetagenomesPublicly accessibleYes
HumanMetagenomeDBAnnotation of metagenomes obtained from human microbiome samplesHuman Microbiome MetagenomesPublicly accessibleYes
SPIRESearchable resource of ecosystem metadata obtained from MAGsEcosystem MetadataPublicly accessibleNo
Marine Metagenomics Portal (MMP)Collection of databases annotating marine-oriented metagenomic datasetsMarine MetagenomesPublicly accessibleNo
National Microbiome Data Collaborative (NMDC)A platform for collaboration and data sharing among researchers studying microbiomes across diverse ecosystemsMicrobiome DataPublicly accessibleYes

综合微生物基因组和微生物组 (IMG/M) 数据库是一个社区驱动的存储库,其中包含来自生命各个领域的培养和未培养微生物类群的基因组、宏基因组和宏转录组、扩增子、质粒和通过靶向测序生成的感兴趣的基因组片段[
  • Chen I.-M.A.
  • Chu K.
  • Palaniappan K.
  • Pillay M.
  • Ratner A.
  • Huang J.
  • et al.
IMG/M v.5.0: an integrated data management and comparative analysis system for microbial genomes and microbiomes.
  • Chen I.-M.A.
  • Chu K.
  • Palaniappan K.
  • Ratner A.
  • Huang J.
  • Huntemann M.
  • et al.
The IMG/M data management and analysis system v.7: content updates and new features.
]。 IMG/M [
  • Chen I.-M.A.
  • Chu K.
  • Palaniappan K.
  • Pillay M.
  • Ratner A.
  • Huang J.
  • et al.
IMG/M v.5.0: an integrated data management and comparative analysis system for microbial genomes and microbiomes.
  • Chen I.-M.A.
  • Chu K.
  • Palaniappan K.
  • Ratner A.
  • Huang J.
  • Huntemann M.
  • et al.
The IMG/M data management and analysis system v.7: content updates and new features.
] 具有完善的、持续更新的宏基因组分析流程(DOE JGI 宏基因组工作流程),允许研究人员提交自己的基因组或宏基因组数据集,并且自动执行多种类型的分析,包括基因调用、分类分配和功能注释 [
  • Clum A.
  • Huntemann M.
  • Bushnell B.
  • Foster B.
  • Foster B.
  • Roux S.
  • et al.
DOE JGI metagenome workflow.
]。因此,虽然数据库的部分内容来自其他已建立的序列存储库,例如 GenBank [
  • Sayers E.W.
  • Cavanaugh M.
  • Clark K.
  • Pruitt K.D.
  • Schoch C.L.
  • Sherry S.T.
  • et al.
GenBank.
] 或 SRA [
  • Kodama Y.
  • Shumway M.
  • Leinonen R.
on behalf of the International Nucleotide Sequence Database Collaboration
The sequence read archive: explosive growth of sequencing data.
],但其大部分内容源自来自用户提交的项目。与 IMG/M 类似,MGnify [
  • Mitchell A.L.
  • Almeida A.
  • Beracochea M.
  • Boland M.
  • Burgin J.
  • Cochrane G.
  • et al.
MGnify: the microbiome analysis resource in 2020.
] 是一个免费数据库,旨在归档、探索和分析微生物组测序数据集。该数据库接受用户提交的数据,并提供多功能注释管道来涵盖各种数据集类型的分析,从针对分类标记的研究(例如扩增子研究)到宏基因组和宏转录组的鸟枪测序,以及宏基因组组装基因组(MAG)。此外,MGnify 还提供了根据请求为用户提交的原始读取提供组装的选项 [
  • Mitchell A.L.
  • Almeida A.
  • Beracochea M.
  • Boland M.
  • Burgin J.
  • Cochrane G.
  • et al.
MGnify: the microbiome analysis resource in 2020.
]。最后,宏基因组 RAST 服务 (MG-RAST) 是另一个主要的微生物组存储库,也是为宏基因组样本自动分析提供统一管道的最早方法之一 [
  • Meyer F.
  • Bagchi S.
  • Chaterji S.
  • Gerlach W.
  • Grama A.
  • Harrison T.
  • et al.
MG-RAST version 4-lessons learned from a decade of low-budget ultra-high-throughput metagenome analysis.
]。 与其他数据库相比,MG-RAST对其内容施加访问限制,其数据库仅限于其注册用户。它侧重于宏基因组读数的分析以及后者与参考基因组的映射,而不是分析其他数据集类别(扩增子、组装的重叠群/支架或 MAG)。

除了 IMG/M、MGnify 和 MG-RAST 之外,还提供了几个更专业的宏基因组数据库,重点关注特定的微生物组类型。例如,IMG/VR [
  • Roux S.
  • Páez-Espino D.
  • Chen I.-M.A.
  • Palaniappan K.
  • Ratner A.
  • Chu K.
  • et al.
IMG/VR v3: an integrated ecological and evolutionary framework for interrogating genomes of uncultivated viruses.
  • Camargo A.P.
  • Nayfach S.
  • Chen I.-M.A.
  • Palaniappan K.
  • Ratner A.
  • Chu K.
  • et al.
IMG/VR v4: an expanded database of uncultivated virus genomes within a framework of extensive functional, taxonomic, and ecological metadata.
] 是 IMG/M 的一个子集,专门关注病毒基因组和宏基因组 [
  • Paez-Espino D.
  • Eloe-Fadrosh E.A.
  • Pavlopoulos G.A.
  • Thomas A.D.
  • Huntemann M.
  • Mikhailova N.
  • et al.
Uncovering Earth’s virome.
],它利用了专门的预测器重新分析 IMG/M 数据集并根据病毒基因结构和病毒特异性标记区域识别样本 [
  • Paez-Espino D.
  • Chen I.-M.A.
  • Palaniappan K.
  • Ratner A.
  • Chu K.
  • Szeto E.
  • et al.
IMG/VR: a database of cultured and uncultured DNA Viruses and retroviruses.
]。 DOE 系统生物学知识库 (KBase) [
  • Arkin A.P.
  • Cottingham R.W.
  • Henry C.S.
  • Harris N.L.
  • Stevens R.L.
  • Maslov S.
  • et al.
KBase: The United States Department of Energy Systems Biology Knowledgebase.
] 是一个可免费访问的软件和数据平台,有助于微生物、植物和群落数据的共享、集成和分析。 NMPFamsDB [
  • Baltoumas F.A.
  • Karatzas E.
  • Liu S.
  • Ovchinnikov S.
  • Sofianatos Y.
  • Chen I.-M.
  • et al.
NMPFamsDB: a database of novel protein families from microbial metagenomes and metatranscriptomes.
  • Pavlopoulos G.A.
  • Baltoumas F.A.
  • Liu S.
  • Selvitopi O.
  • Camargo A.P.
  • Nayfach S.
  • et al.
Unraveling the functional dark matter through global metagenomics.
] 托管来自 IMG 宏基因组和元转录组的新型蛋白质家族 [
  • Baltoumas F.A.
  • Karatzas E.
  • Paez-Espino D.
  • Venetsianou N.K.
  • Aplakidou E.
  • Oulas A.
  • et al.
Exploring microbial functional biodiversity at the protein family level-From metagenomic sequence reads to annotated protein clusters.
],这些蛋白质家族与任何已知的 Pfam 结构域没有任何命中或相似性任何已知的参考基因组。同样,FESnov 目录报告了源自 MAG 的功能未注释的蛋白质 [
  • Rodríguez Del Río Á.
  • Giner-Lamia J.
  • Cantalapiedra C.P.
  • Botas J.
  • Deng Z.
  • Hernández-Plaza A.
  • et al.
Functional and evolutionary significance of unknown genes from uncultivated taxa.
]。这两个数据库都提供了多种数据可视化工具。另一个类似但更集中的例子是海洋微生物组学数据库[
  • Paoli L.
  • Ruscheweyh H.-J.
  • Forneris C.C.
  • Hubrich F.
  • Kautsar S.
  • Bhushan A.
  • et al.
Biosynthetic potential of the global ocean microbiome.
],该数据库包含通过将海洋生态系统中的分离基因组与来自海水样本的重建基因组草图整合而形成的生物合成基因簇。 NIH 人类微生物组项目重点关注人类宿主相关系统的宏基因组,例如肠道微生物组 [
  • Lloyd-Price J.
  • Mahurkar A.
  • Rahnavard G.
  • Crabtree J.
  • Orvis J.
  • Hall A.B.
  • et al.
Strains, functions and dynamics in the expanded Human Microbiome Project.
]、TerrescialMetagenomeDB [
  • Corrêa F.B.
  • Saraiva J.P.
  • Stadler P.F.
  • da Rocha U.N.
TerrestrialMetagenomeDB: a public repository of curated and standardized metadata for terrestrial metagenomes.
]、MarineMetagenomeDB [
  • Nata’ala M.K.
  • Avila Santos A.P.
  • Coelho Kasmanas J.
  • Bartholomäus A.
  • Saraiva J.P.
  • Godinho Silva S.
  • et al.
MarineMetagenomeDB: a public repository for curated and standardized metadata for marine metagenomes.
] 和 HumanMetagenomeDB [
  • Kasmanas J.C.
  • Bartholomäus A.
  • Corrêa F.B.
  • Tal T.
  • Jehmlich N.
  • Herberth G.
  • et al.
HumanMetagenomeDB: a public repository of curated and standardized metadata for human metagenomes.
] 分别注释从土壤、海洋和人类微生物组样本中获得的宏基因组,这些样本最初存放在 GenBank [
  • Sayers E.W.
  • Cavanaugh M.
  • Clark K.
  • Pruitt K.D.
  • Schoch C.L.
  • Sherry S.T.
  • et al.
GenBank.
]、SRA [
  • Kodama Y.
  • Shumway M.
  • Leinonen R.
on behalf of the International Nucleotide Sequence Database Collaboration
The sequence read archive: explosive growth of sequencing data.
] 和 MG-RAST [
  • Meyer F.
  • Bagchi S.
  • Chaterji S.
  • Gerlach W.
  • Grama A.
  • Harrison T.
  • et al.
MG-RAST version 4-lessons learned from a decade of low-budget ultra-high-throughput metagenome analysis.
]。 SPIRE 由 EMBL 托管,提供从 MAG 获得的可搜索的、全球范围的生态系统元数据资源 [
  • Schmidt T.S.B.
  • Fullam A.
  • Ferretti P.
  • Orakov A.
  • Maistrenko O.M.
  • Ruscheweyh H.-J.
  • et al.
SPIRE: a searchable, planetary-scale microbiome REsource.
]。最后,海洋宏基因组学门户 (MMP) [
  • Klemetsen T.
  • Raknes I.A.
  • Fu J.
  • Agafonov A.
  • Balasundaram S.V.
  • Tartari G.
  • et al.
The MAR databases: development and implementation of databases specific for marine metagenomics.
] 是一个注释面向海洋的宏基因组数据集的数据库集合,这些数据集是从 MGnify 检索的,以及由大型微生物组计划(例如 AtlantECO 或 Tara)进行的超级研究海洋探险[
  • Sunagawa S.
  • Coelho L.P.
  • Chaffron S.
  • Kultima J.R.
  • Labadie K.
  • Salazar G.
  • et al.
Structure and function of the global ocean microbiome.
]。

最后,国家微生物组数据协作组织 (NMDC) [
The National Microbiome Data Collaborative Data Portal: an integrated multi-omics microbiome data resource.
] 是一项创新举措,旨在促进跨不同生态系统研究微生物组的研究人员之间的协作和数据共享。它作为一个集中平台,科学家可以在其中访问、分析和贡献微生物组数据,增进我们对微生物群落及其对各种环境和生物体影响的理解。通过其协作框架,NMDC 旨在加速医疗保健和环境科学等领域的发现并促进新颖解决方案的开发。

 3. 序列空间


在本节中,我们描述了上述存储库中当今的序列宏基因组/宏转录组空间(2024 年 4 月快照)。 IMG/M 目前拥有 207,655 个数据集,其中包括 54,030 个宏基因组数据集和 14,411 个宏转录组数据集(65,987,169,755 个支架)。同样,以全面收集未培养病毒基因组而闻名的IMG/VR数据库包含来自宏基因组的总共14,203,973个病毒基因组和8023,647个病毒OTU。 MGnify 拥有来自 2932 项研究的 573,344 个数据集。在这些数据集中,459,617 个扩增子、39,605 个宏基因组和 2581 个宏转录组。此外,MGnify 还具有 11 个宏基因组组装基因组 (MAG) 目录中编目的 429,448 个基因组。 MGnify 蛋白质数据库拥有超过 24 亿个从宏基因组组装预测的独特序列。 SPIRE 包含来自 739 项研究的 99,146 个宏基因组样本。 SPIRE 的宏基因组组装总大小为 16 兆碱基对 (Tbp),包含 350 亿个预测蛋白质序列和 116 万个新生成的中等到高质量的宏基因组组装基因组 (MAG)。

 4. 管道


虽然每个流程可能采用不同的方法并集成不同的分析方法,但目前所有可用的工作流程都集中于三个主要程序:i)非编码RNA基因(ncRNA)和其他标记区域的识别,ii)蛋白质编码基因的预测,以及 iii) 样本的功能和分类注释。 ncRNA(例如 rRNA、tRNA)和标记区域(例如 CRISPR 元件)通过使用 INFERNAL [
  • Nawrocki E.P.
  • Eddy S.R.
Infernal 1.1: 100-fold faster RNA homology searches.
])进行搜索来检测。 /b1> ],或使用专用工具检测序列特征(例如,用于 tRNA 的 tRNAscan-SE [
  • Chan P.P.
  • Lin B.Y.
  • Mak A.J.
  • Lowe T.M.
tRNAscan-SE 2.0: improved detection and functional classification of transfer RNA genes.
]、用于间隔区检测的 CRISPRCasTyper [
  • Russel J.
  • Pinilla-Redondo R.
  • Mayo-Muñoz D.
  • Shah S.A.
  • Sørensen S.J.
CRISPRCasTyper: An automated tool for the identification, annotation and classification of CRISPR-Cas loci.
]、CRT-CLI [
  • Bland C.
  • Ramsey T.L.
  • Sabree F.
  • Lowe M.
  • Brown K.
  • Kyrpides N.C.
  • et al.
CRISPR recognition tool (CRT): a tool for automatic detection of clustered regularly interspaced palindromic repeats.
] 用于 CRISPR 序列,geNomad 用于鉴定病毒和质粒 [
Fast and accurate identification of plasmids and viruses in sequencing data using geNomad.
])。蛋白质基因调用可以使用多种基因预测工具进行,其中最著名的是 Prodigal [
  • Hyatt D.
  • Chen G.-L.
  • Locascio P.F.
  • Land M.L.
  • Larimer F.W.
  • Hauser L.J.
Prodigal: prokaryotic gene recognition and translation initiation site identification.
]、GeneMark [
  • Borodovsky M.
  • Lomsadze A.
Gene identification in prokaryotic genomes, phages, metagenomes, and EST sequences with GeneMarkS suite.
] 及其各种实现(GeneMarkS-2 for原核基因和真核生物的 GeneMark-ES/ET)以及 FragGeneScan [
  • Rho M.
  • Tang H.
  • Ye Y.
FragGeneScan: predicting genes in short and error-prone reads.
]。

基因调用后,可以通过根据参考数据库搜索预测基因来执行功能注释(例如,RefSeq [
  • Haft D.H.
  • Badretdin A.
  • Coulouris G.
  • DiCuccio M.
  • Durkin A.S.
  • Jovenitti E.
  • et al.
RefSeq and the prokaryotic genome annotation pipeline in the age of metagenomes.
]、UniRef90 [
  • Suzek B.E.
  • Wang Y.
  • Huang H.
  • McGarvey P.B.
  • Wu C.H.
UniProt Consortium
UniRef clusters: a comprehensive and scalable alternative for improving sequence similarity searches.
]、UniProtKB [
UniProt Consortium
UniProt: the universal protein knowledgebase in 2021.
]、Pfam [
  • Mistry J.
  • Chuguransky S.
  • Williams L.
  • Qureshi M.
  • Salazar G.A.
  • Sonnhammer E.L.L.
  • et al.
Pfam: The protein families database in 2021.
]、InterPro [
  • Paysan-Lafosse T.
  • Blum M.
  • Chuguransky S.
  • Grego T.
  • Pinto B.L.
  • Salazar G.A.
  • et al.
InterPro in 2022.
])与成对比对(例如 BLAST [
  • Altschul S.F.
  • Gish W.
  • Miller W.
  • Myers E.W.
  • Lipman D.J.
Basic local alignment search tool.
]、DIAMOND [
  • Buchfink B.
  • Xie C.
  • Huson D.H.
Fast and sensitive protein alignment using DIAMOND.
]、MMseqs2 [
  • Steinegger M.
  • Söding J.
MMseqs2 enables sensitive protein sequence searching for the analysis of massive data sets.
])或基于隐马尔可夫模型 (HMM) 的方法(例如 HMMER [
  • Potter S.C.
  • Luciani A.
  • Eddy S.R.
  • Park Y.
  • Lopez R.
  • Finn R.D.
HMMER web server: 2018 update.
]、HH-suite [
  • Steinegger M.
  • Meier M.
  • Mirdita M.
  • Vöhringer H.
  • Haunsberger S.J.
  • Söding J.
HH-suite3 for fast remote homology detection and deep protein annotation.
] )。最后,数据集的分类特征基于已识别的 ncRNA 基因,并结合蛋白质基因同源性搜索的最重要结果。此外,可以使用专门的工具进行详细的系统发育分析,例如 Kraken 2 [
  • Wood D.E.
  • Lu J.
  • Langmead B.
Improved metagenomic analysis with Kraken 2.
]、PhymmBL [
  • Brady A.
  • Salzberg S.L.
Phymm and PhymmBL: metagenomic phylogenetic classification with interpolated Markov models.
] 或 MetaPhlAn [
  • Manghi P.
  • Blanco-Míguez A.
  • Manara S.
  • NabiNejad A.
  • Cumbo F.
  • Beghini F.
  • et al.
MetaPhlAn 4 profiling of unknown species-level genome bins improves the characterization of diet-associated microbiome changes in mice.
]。


5. 宏基因组学中使用的中央可视化布局


尽管宏基因组具有异质性且可视化复杂,但常见的可视化概念始终可用于某些目的(图 2)。
Fig. 2

图 2 不同的可视化概念。 (A) 马戏团图。 (B) 翻转图及其相应的维恩图。 (C) 热图。 (D) 条形图(物种)。 (五)网络。 (F) 旭日图(克朗)。 (G) 树形图。 (H) 系统发育树。 (一)桑基图。 (J) 气泡图。 (K) 蜂巢图。 (L) PCA 图。所有绘图都是使用模拟数据创建的。

 5.1 马戏团


它是一个圆形数据可视化工具,显示沿圆周排列的不同实体之间的关系(图2A)。它最初是为基因组学和生物信息学应用而开发的,但后来被用于各个领域,以可视化复杂的关系和模式。在 Circos 图中,数据由连接圆上点的带状或圆弧表示。圆圈上每个点的位置代表一个特定的实体或类别,丝带表示它们之间的联系或关系。带的厚度或颜色可用于编码定量信息,使其能够有效地说明基因组数据,例如基因组重排、元素之间的相互作用或大型数据集中的相关性。 Circos 图提供了一种独特且具有视觉吸引力的方式来表示复杂数据集中的复杂关系和模式。例如,NMPFamsDB [
  • Baltoumas F.A.
  • Karatzas E.
  • Liu S.
  • Ovchinnikov S.
  • Sofianatos Y.
  • Chen I.-M.
  • et al.
NMPFamsDB: a database of novel protein families from microbial metagenomes and metatranscriptomes.
  • Pavlopoulos G.A.
  • Baltoumas F.A.
  • Liu S.
  • Selvitopi O.
  • Camargo A.P.
  • Nayfach S.
  • et al.
Unraveling the functional dark matter through global metagenomics.
] 是来自宏基因组的新蛋白质家族的数据库,并提供生态系统和系统发育选项,允许用户可视化家族与其生物体的关联通过 Circos 图显示不同级别的类别或生态系统。

 5.2 扰动图


UpSet 图是一种数据可视化工具,用于以比传统维恩图更详细、信息更丰富的方式表示集合的交集和基数(图 2B)。在处理较大的集合或集合之间的多个交集时,UpSet 图特别有用。它们旨在解决维恩图的一些局限性,例如缩放到大量集合和呈现交集大小的困难。 UpSet 图的主要功能包括: (i) 矩阵显示 - UpSet 图使用矩阵来表示集合的交集,而不是使用重叠的圆圈。矩阵中的每一行对应于一组唯一的组合,并且单元格指示该特定组合是否存在或不存在。 (ii) 集合大小的条形图 - 该图通常包括显示各个集合的大小的条形图或直方图,以便清楚地了解元素在集合中的分布。 (iii) 交叉点大小条 - 该图还包括代表每个交叉点大小的条形,允许快速比较不同交叉点的大小。 (iv) 注释 - UpSet 图可能包括附加注释或标签,以提供上下文或突出显示数据的特定特征。例如,FLAME [
  • Karatzas E.
  • Baltoumas F.A.
  • Aplakidou E.
  • Kontou P.I.
  • Stathopoulos P.
  • Stefanis L.
  • et al.
Flame (v2.0): advanced integration and interpretation of functional enrichment results from multiple sources.
,
  • Thanati F.
  • Karatzas E.
  • Baltoumas F.A.
  • Stravopodis D.J.
  • Eliopoulos A.G.
  • Pavlopoulos G.A.
FLAME: a web tool for functional and literature enrichment analysis of multiple gene lists.
],一个致力于功能丰富的网络,使用交互式 UpSet 图来显示各种基因列表的重叠注释或丰富术语以及联合和导入的基因/蛋白质列表的交叉点。

 5.3 维恩图


这是一个图形表示,显示元素集或元素组之间的关系(并集和交集)(图 2B)。它由重叠的圆圈组成,每个圆圈代表一个集合,圆圈之间的重叠或相交代表这些集合之间共享的元素。维恩图的主要目的是直观地描述不同组或类别之间的共性和差异。维恩图的关键组成部分包括 (i) 圆形或椭圆形 - 图中的每个圆形或椭圆形代表一个集合或类别。属于该集合的元素包含在圆圈内。 (ii) 重叠 - 圆圈之间的重叠区域表示两个集合共有的元素。重叠的大小反映了共享元素的范围。 (iii)非重叠区域-每个圆圈的非重叠部分代表该特定集合所独有的元素。维恩图广泛应用于包括宏基因组学在内的各个领域,以可视化不同元素集之间的关系和重叠,例如分类组成、功能基因注释、比较条件或环境以及群落结构。例如,NMPFamsDB 是一个包含源自微生物宏基因组和元转录组的新型蛋白质家族的数据库,在其图形摘要中使用了维恩图。该图说明了新型蛋白质家族在生命各个领域的分布和覆盖范围。这种视觉表现有效地传达了许多新的蛋白质家族包含来自多个分类群的成员,突出了关于这些蛋白质的保守性和重要性的有趣发现。

 5.4 热图


它是一种图形表示形式,使用颜色来可视化数据矩阵或网格中变量的强度(图 2C)。它通过将主要变量的值排列在彩色方块网格中来说明主要变量的值,其中两个轴变量分为类似于条形图或直方图的范围。每个单元格的颜色表示轴变量相应范围内主变量的值。在宏基因组分析的背景下,可以采用热图来显示不同样本或条件下特定微生物类群或功能基因的丰度或存在。热图中的行和列可能分别对应于单个微生物分类群或基因以及不同的样本,颜色指示每个元素的相对丰度或出现情况。这种可视化类型对于识别模式、对相关分类群或基因进行聚类以及深入了解宏基因组数据集中微生物群落的组成和动态非常有价值。例如,在[
  • Lluch J.
  • Servant F.
  • Païssé S.
  • Valle C.
  • Valière S.
  • Kuchly C.
  • et al.
The characterization of novel tissue microbiota using an optimized 16S metagenomic sequencing pipeline.
]中,利用优化的16S宏基因组测序流程,利用热图来表征新型组织微生物群。它通过对不同小鼠组织样本进行三次测序(每个组织对应三只不同的小鼠)来可视化每个细菌家族的相对丰度。每条线对应一个细菌家族。组织的三列中的每一列对应于不同的小鼠。

 5.5 条形图


它们代表基于统计数据和数字的数据。条形图使用两个轴来绘制矩形条(图 2D)。其中一个轴代表观察/类别,通常是固定变量,而另一个轴代表观察所携带的数值大小。条形图的典型类型包括水平条形图、垂直条形图、双条形图、多条形图和条形线。在宏基因组学领域,条形图提供了一种有用的可视化方法,用于表示生物样本中不同分类群(例如物种、属、门)的丰度或分布。此类条形图的示例有:(i) 堆积条形图、(ii) 分组条形图和(iii) 相对丰度条形图。在堆叠条形图中,每个条形图都分为多个部分,每个部分代表一个不同的分类组。每个片段的高度对应于样本中该组的丰度。分组条形图可用于比较多个样本中不同分类组的丰度。每组条形代表不同的样本,并且在每组内,条形代表不同分类组的丰度。相对丰度条形图显示每个分类组的相对丰度而不是绝对计数。它对于比较样本中不同类群的比例非常有用。例如,在[
  • Galanis A.
  • Vardakas P.
  • Reczko M.
  • Harokopos V.
  • Hatzis P.
  • Skoulakis E.M.C.
  • et al.
Bee foraging preferences, microbiota and pathogens revealed by direct shotgun metagenomics of honey.
]中,采用堆叠条形图来描绘共生细菌在分类为核心或非核心的物种之间的分布。这项研究调查了从稳定养蜂场在三个收获季节收集的蜂蜜,以阐明构成核心和非核心细菌群落的物种多样性。 通过使用堆叠条形图,可视化有效地突出了核心蜜蜂微生物群稳定性特征和五种非核心细菌菌株的季节动态的差异。

 5.6 网络


一般意义上,网络可视化表示系统内元素之间的连接和关系,其中这些元素是节点,它们之间的连接是边。通过使用图形表示,网络可视化提供了一种清晰直观的方法来理解复杂网络内的结构、依赖关系和交互(图 2D)。网络可用于可视化多个科学领域的数据。在生物学中,网络通常用于提供有关生物系统、样本或实体之间的连接性或其他关系的信息[
  • Baltoumas F.A.
  • Zafeiropoulou S.
  • Karatzas E.
  • Koutrouli M.
  • Thanati F.
  • Voutsadaki K.
  • et al.
Biomolecule and bioentity interaction databases in systems biology: a comprehensive review.
  • Koutrouli M.
  • Karatzas E.
  • Paez-Espino D.
  • Pavlopoulos G.A.
A guide to conquer the biological network era using graph theory.
]。生物网络可视化的典型案例是:(i)生物途径图 - 这些可视化说明了特定生物途径中涉及的生化反应和分子相互作用的序列。它们提供了不同分子(例如蛋白质和代谢物)如何协作执行基本细胞功能的整体视图。 (ii) 蛋白质-蛋白质相互作用网络——它们是蛋白质之间相互作用的图形表示,阐明了细胞系统内复杂的连接网络。节点代表蛋白质,边缘代表相互作用,使研究人员能够分析对细胞过程至关重要的功能关系。 (iii) 基因调控网络 - 基因调控网络的可视化展示了基因如何控制彼此的表达。节点代表基因,边缘代表调控相互作用,揭示了控制细胞功能的复杂调控机制。 (iv) 代谢网络 - 它们描述了细胞内相互关联的代谢途径。 节点代表代谢物,边缘代表酶促反应,从而深入了解细胞如何处理营养物质和能量。 (v) 信号网络 - 它们说明了细胞相互通信的途径。 (vi) 疾病网络 - 它们捕获与特定疾病相关的基因、蛋白质和其他生物分子之间的关系。 (vii) 系统发育网络 - 它们代表不同物种之间的进化关系。 (viii) 生态网络 - 它们描述生态系统中不同物种之间的相互作用。这包括食物网,其中物种通过捕食者与猎物的关系连接起来。例如,在[
  • Pavlopoulos G.A.
  • Baltoumas F.A.
  • Liu S.
  • Selvitopi O.
  • Camargo A.P.
  • Nayfach S.
  • et al.
Unraveling the functional dark matter through global metagenomics.
]中,网络被用来表示NMPFamDB及其生态系统中报告的新型蛋白质簇的分布和关联。根据 GOLD 生态系统分类,应用了八种生态系统类型,以中央彩色节点(中心)表示。灰色外围节点代表蛋白质簇,而边缘代表蛋白质簇-生态系统关联。


5.7 旭日图(克朗)


它有多个名称,例如环形图和径向树图,用于可视化分层数据集(图 2F)。它通过使用一系列同心环来展示层次结构,其中每个环对应于层次结构中的特定级别。每个环内的分段按比例划分以表示该级别的细节。通过关注环内的某个段,人们可以了解该段与整个层次结构及其父环段的关系。 Sunburst 图表采用放射状布局,为分类数据集提供身临其境的可视化体验。与树形图中使用的矩形布局不同,旭日图充满空间,并展示每个环如何细分为连续的段,有效地说明了数据的层次结构细分。图表中分类学的直观表示被证明对于宏基因组分析很有价值。其径向布局可以直观地探索不同分类级别之间的关系,从而深入了解微生物群落的组成和分布。例如,[
  • Heyer R.
  • Schallert K.
  • Siewert C.
  • Kohrs F.
  • Greve J.
  • Maus I.
  • et al.
Metaproteome analysis reveals that syntrophy, competition, and phage-host interaction shape microbial communities in biogas plants.
]中采用克朗图。该图提供了对沼气厂 (BGP) 内主要微生物分类和功能的深入了解。它通过总结已识别的微生物家族和生物过程,全面概述了微生物群落结构和代谢功能。 KRONA 图描绘了已识别细菌、古细菌和病毒在从超级界到科的各个分类级别上的分布,丰度根据所有 BGP 上已识别光谱的总和表示。

 5.8 树形图


它是通过嵌套矩形表示分层数据的可视化(图 2G)。树状图中的每个矩形对应于特定类别或子类别,矩形的大小反映了它们所代表的数据的定量值。层次结构通过矩形之间的嵌套来描述,顶层矩形代表整个数据集,并将其细分为每个后续级别的更小的矩形。树形图可以有效地显示层次结构并促进对复杂数据集的直观探索,使其在信息可视化、财务分析和项目管理等领域特别有用。在宏基因组分析中,树形图可以用作可视化工具来表示微生物分类或功能数据中的层次结构。例如,在[
  • Bremel R.D.
  • Homan E.J.
Extensive T-Cell Epitope Repertoire Sharing among Human Proteome, Gastrointestinal Microbiome, and Pathogenic Bacteria: Implications for the Definition of Self.
]中,利用树形图来可视化病原体蛋白质组内的T细胞表位库频率模式(TCEM)。树形图中的每个矩形代表细菌物种之间独特的 TCEM 共享关系,其大小与该特定组合中的基序数量成比例。

 5.9 系统发育树


它们是一种特定类型的树图(树状图),可用于表示分类关系(图 2H)。这些根据宏基因组数据构建的图表通过描述基于遗传相似性的分支模式,有助于说明这些微生物之间的进化关系,从而深入了解给定生态系统中整个微生物群落的生物多样性和进化历史。例如,[
  • Zhu Q.
  • Mai U.
  • Pfeiffer W.
  • Janssen S.
  • Asnicar F.
  • Sanders J.G.
  • et al.
Phylogenomics of 10,575 genomes reveals evolutionary proximity between domains Bacteria and Archaea.
] 呈现了一个系统发育树,显示了细菌和古细菌的生命树,并呈现了域级关系的更新视图。

 5.10 桑基图


桑基图,也称为桑基图或流程图,是一种可视化表示,说明多个实体之间的资源或信息流 [
  • Otto E.
  • Culakova E.
  • Meng S.
  • Zhang Z.
  • Xu H.
  • Mohile S.
  • et al.
Overview of Sankey flow diagrams: Focusing on symptom trajectories in older adults with advanced cancer.
  • Kennedy A.B.W.
  • Sankey H.R.
The thermal efficiency of steam engines. report of the committee appointed to the council upon the subject of the definition of a standard or standards of thermal efficiency for steam engines: with an introductory note. (Including appendixes and plate at back of volume).
](图 2I )。该图由节点(代表实体或类别)和直接链接(加权线或箭头)组成,显示节点之间流量的方向和数量。链接的宽度与流量成正比,使观察者可以轻松掌握系统内不同路径的相对大小。在宏基因组分析中,桑基图可用于说明不同生物样本或条件下分类或功能类别的分布和转变。这些图可以代表微生物类群或功能基因丰度的流动,展示这些实体如何在各种环境样本、实验处理或时间点之间转移或保持一致。桑基图中链接的宽度对应于类群或功能类别的相对丰度,提供对微生物群落动态的直观了解。例如,BioSankey [
  • Platzer A.
  • Polzin J.
  • Rembart K.
  • Han P.P.
  • Rauer D.
  • Nussbaumer T.
BioSankey: Visualization of Microbial Communities Over Time.
] 有助于随时间推移微生物群落的可视化。该工具通过创建直观且交互式的桑基图来描述不同时间点微生物组研究中微生物物种的变化,有助于全面了解实验数据并充分利用数据集的潜力。

 5.11 气泡图


它是一种在二维平面上使用不同大小的圆圈显示三维数据的视觉表示(图2J)。每个圆圈或“气泡”代表一个数据点,并根据其沿两个轴的值进行定位。图表上的位置传达了两个变量之间的关系,而气泡的大小表示第三个变量的大小。在生物学中,气泡图可用于表示多变量数据,例如比较不同栖息地的物种丰度。图表上每个气泡的位置可能表示环境参数,而气泡的大小可以代表特定物种的种群规模。这种可视化方法对于识别不同数据集中的模式、相关性和潜在的生态趋势非常有用。例如,[
  • Ghosh S.
  • Das A.P.
Metagenomic insights into the microbial diversity in manganese-contaminated mine tailings and their role in biogeochemical cycling of manganese.
] 包括一个气泡图,说明样本的相对分类丰度。每个气泡的大小表示该分类单元相对于其最大丰度的丰度,气泡尺寸越大表示丰度越高。此外,每个圆圈的大小按对数缩放,以表示直接分配给分类单元的开放阅读框(ORF)的数量。这种可视化有助于理解微生物群落的分类组成及其在生物地球化学锰循环中的潜在作用。

 5.12 蜂巢图


蜂巢图背后的基本概念是以结构化和直观的方式可视化多个变量或类别之间的关系或联系(图 2K)。它通常用于表示具有多个维度的复杂网络或数据集 [
  • Krzywinski M.
  • Birol I.
  • Jones S.J.
  • Marra M.A.
Hive plots--rational approach to visualizing networks.
]。总体而言,蜂巢图的关键优势在于它们能够以简洁且可解释的格式可视化多维数据,使它们成为跨不同领域的探索性数据分析、网络可视化和模式识别的宝贵工具。它们可以成为可视化微生物组数据的有用工具,这些数据通常涉及各种微生物类群和环境因素之间的复杂关系。微生物组数据通常包含多个样本中不同微生物物种或分类群的丰度或存在/不存在信息。例如,在[
  • Sweet M.
  • Burian A.
  • Fifer J.
  • Bulling M.
  • Elliott D.
  • Raymundo L.
Compositional homogeneity in the pathobiome of a new, slow-spreading coral disease.
]中,使用三轴蜂巢图来评估与表面健康和患病珊瑚相关的微生物网络的特征。


5.13 降维方法


降维方法 [
  • Armstrong G.
  • Rahman G.
  • Martino C.
  • McDonald D.
  • Gonzalez A.
  • Mishne G.
  • et al.
Applications and Comparison of Dimensionality Reduction Methods for Microbiome Data.
  • Nanga S.
  • Bawah A.T.
  • Acquaye B.A.
  • Billa M.-I.
  • Baeta F.D.
  • Odai N.A.
  • et al.
Review of Dimension Reduction Methods.
  • Ma Y.
  • Zhu L.
A Review on Dimension Reduction.
  • Huang H.
  • Wang Y.
  • Rudin C.
  • Browne E.P.
Towards a comprehensive evaluation of dimension reduction methods for transcriptomic data visualization.
  • Becht E.
  • McInnes L.
  • Healy J.
  • Dutertre C.-A.
  • Kwok I.W.H.
  • Ng L.G.
  • et al.
Dimensionality reduction for visualizing single-cell data using UMAP.
  • Velliangiri S.
  • Alagumuthukrishnan S.
  • Thankumar Joseph S.I.
A Review of Dimensionality Reduction Techniques for Efficient Computation.
,
  • Chari T.
  • Pachter L.
The specious art of single-cell genomics.
] 通过将高维数据集转换为低维表示,同时保留重要信息,在分析高维数据集方面发挥着至关重要的作用。主成分分析 (PCA)(图 2L)是一种广泛使用的线性技术,可识别数据中最大方差的轴。它将数据投影到这些轴上以降低维度,同时保留最重要的特征。 PCA 图是一种视觉表示,用于根据样本的整体组成探索和理解样本之间的关系。例如,在[
  • Nie Y.
  • Zhao J.-Y.
  • Tang Y.-Q.
  • Guo P.
  • Yang Y.
  • Wu X.-L.
  • et al.
Species Divergence vs. Functional Convergence Characterizes Crude Oil Microbial Community Assembly.
]中,利用3D PCA图显示了油样中的4个宏基因组和IMG数据库中的948个环境宏基因组使用KO丰度的聚类结果。这种可视化可以帮助检查不同环境中宏基因组功能组成之间的关系。

其他众所周知的降维方法包括均匀流形逼近和投影 (UMAP)、t 分布随机邻域嵌入 (t-SNE) 和潜在狄利克雷分配 (LDA)。统一流形逼近和投影 (UMAP) 是一种非线性降维方法,可保留数据中的全局和局部结构,使其能够有效地可视化复杂数据集。 UMAP 在元基因组领域得到了频繁的应用,其使用非常普遍。这种非线性机器学习方法的整合预计将显着增强我们对宏基因组的理解。 t 分布随机邻域嵌入 (t-SNE) 是另一种流行的非线性方法,专注于保留数据点之间的局部关系,通常用于在二维或三维中可视化高维数据。潜在狄利克雷分配(LDA)是一种概率生成模型,常用于自然语言处理中的主题建模。它通过将文档表示为主题的分布来降低维度,从而允许探索大型文本语料库中的潜在主题。总的来说,这些降维方法为可视化和探索跨不同领域的复杂数据集提供了强大的工具(例如,scRNA-seq,请参阅 SCALA 应用程序 [
  • Tzaferis C.
  • Karatzas E.
  • Baltoumas F.A.
  • Pavlopoulos G.A.
  • Kollias G.
  • Konstantopoulos D.
SCALA: A complete solution for multimodal analysis of single-cell Next Generation Sequencing data.
])。

 5.14 稀疏曲线


它是一种调整样本间宏基因组克隆文库大小差异的方法,以帮助比较 α 多样性。稀疏的概念涉及选择等于或小于最小样本中的样本数的指定数量的样本,然后从较大样本中随机消除读数,直到剩余样本数达到阈值。基于这些大小相等的子样本,可以计算多样性指标以与生态系统相矛盾,并且与样本大小的差异无关。计算出的稀疏度由折线图表示。稀疏曲线不仅反映了样本覆盖度,还描述了采样深度是否足以估计多样性。曲线表示采样深度足够,上升图表示采样深度不足。稀疏曲线通常用于生态学和生物多样性研究,以评估采样工作在捕获生物群落多样性方面的充分性 [
  • Chakraborty J.
  • Palit K.
  • Das S.
Metagenomic approaches to study the culture-independent bacterial diversity of a polluted environment—a case study on north-eastern coast of Bay of Bengal, India.
  • Wang L.
  • Jin L.
  • Xue B.
  • Wang Z.
  • Peng Q.
Characterizing the bacterial community across the gastrointestinal tract of goats: Composition and potential function.
  • Weiss S.
  • Xu Z.Z.
  • Peddada S.
  • Amir A.
  • Bittinger K.
  • Gonzalez A.
  • et al.
Normalization and microbial differential abundance strategies depend upon data characteristics.
] 。该曲线绘制了观察到的物种或独特实体的数量与采样数量的关系。最初,随着收集到的样本越来越多,曲线急剧上升,反映出新物种的发现。然而,它最终趋于稳定,表明社区的大部分多样性已经被采样。稀疏曲线帮助研究人员估计物种丰富度,评估采样工作的有效性,并就生态研究中数据收集的全面性做出明智的决策。稀疏分析用于标准化不同样本量的多样性测量,从而实现生态系统或研究地点之间的公平比较。 在[
  • Pavlopoulos G.A.
  • Baltoumas F.A.
  • Liu S.
  • Selvitopi O.
  • Camargo A.P.
  • Nayfach S.
  • et al.
Unraveling the functional dark matter through global metagenomics.
]中,稀疏曲线被用来表明,虽然来自参考基因组的蛋白质家族似乎线性增加,但来自宏基因组的等效家族却显示出指数增长,因此永远不会停滞不前。因此,该研究重点关注更大的簇以进行进一步分析,同时强调了巨大的未探索的蛋白质序列空间。

 5.15 基因图谱


通常称为遗传图谱或基因组图谱,它是特定染色体或整个基因组上基因排列和位置的直观表示。与 Circos 一样,它提供了遗传结构的图形概述,指示基因、标记和其他遗传特征的相对位置。基因图谱是基因组学和宏基因组学研究的重要工具,有助于理解基因连锁、遗传距离和遗传物质的组织。高分辨率基因图谱对于涉及基因鉴定、标记辅助育种以及各种性状或疾病的遗传基础研究的研究尤其重要。下一代测序等技术进步显着提高了基因图谱的准确性和精确度,有助于我们了解包括人类在内的各种生物体的遗传景观。例如,在[
  • Krishnaswamy V.G.
  • Aishwarya S.
  • Kathawala T.M.
Extrication of the microbial interactions of activated sludge used in the textile effluent treatment of anaerobic reactor through metagenomic profiling.
]中,基因图谱用于通过宏基因组分析来显示厌氧反应器纺织废水处理中使用的活性污泥的微生物相互作用。该圆形基因图谱说明了编码乙醛脱氢酶和许多假设蛋白质的基因的位置和大小。这种可视化有助于理解参与降解途径的微生物及其在微生物群落内的相互作用。

 5.16 树形图


它是一种图形表示,描述不同元素或组件之间的层次结构或关系。它被称为“树”,因为它通常类似于一棵倒立的树,只有一个根或起点,分支成各种分支和子分支。树图的结构由通过边连接的节点组成,其中每个节点代表一个特定的实体或概念,边表示它们之间的关系或连接。树图通常用于计算机科学、语言学、概率论和组织图等各个领域,以直观地组织和说明层次结构。

 5.17 空间填充贴图


像希尔伯特曲线这样的空间填充曲线是复杂的几何图案,以连续且不重叠的方式遍历和覆盖二维空间。希尔伯特曲线(或此类中的任何其他曲线)表现为连续的分形结构,其形成根源于将正方形递归细分为四个较小的子正方形,然后以特定顺序连接它们的中心。这条复杂的曲线系统地遍历指定区域内的所有点,保持原始曲线上的点之间的接近度及其在平面上的空间排列。历史上,希尔伯特曲线曾被用来生成大型支架(例如人类染色体)的基因组图谱和细菌基因组的全基因组比对[
  • Pavlopoulos G.A.
  • Kumar P.
  • Sifrim A.
  • Sakai R.
  • Lin M.L.
  • Voet T.
  • et al.
Meander: visually exploring the structural variome using space-filling curves.
]。扩大范围,这个概念可以适用于空间填充图配置中的宏基因组学。在此表示中,每个位置或像素对应于参考集合内的基因组。给定位置的强度颜色值反映了宏基因组样本中特定基因组的相对丰度。这些微生物组图提供了一种多功能的探索工具,可以对分类学、生态系统丰度进行调查,同时比较多个样本,并通过时间序列分析来分析微生物群落动态。与通常优先考虑群体中丰度最高的元素的传统可视化方法相比,基于希尔伯特曲线的地图提供了更细致的视角。它们为丰度较小的类群提供了增强的分辨率,解决了传统可视化技术中常见的限制。 例如,Meander 应用 [
  • Pavlopoulos G.A.
  • Kumar P.
  • Sifrim A.
  • Sakai R.
  • Lin M.L.
  • Voet T.
  • et al.
Meander: visually exploring the structural variome using space-filling curves.
] 已用于比较来自中亚的 ICE153 菌株和来自意大利南部的 ICE97 菌株之间的 1 号染色体,显示出由配对末端和读段支持的缺失和串联重复。 -借助希尔伯曲线以更高分辨率获得深度信息。

在宏基因组分析领域,浏览复杂的数据集和理解微生物群落之间错综复杂的关系提出了重大挑战。为了应对这些挑战,提出的各种可视化概念可能很有用。在此表(表 2)中,我们重点关注宏基因组可视化中遇到的主要挑战,从表示复杂关系到处理大型数据集和理解分类层次结构。表中列出的每个可视化概念都提供了专门针对特定宏基因组挑战而定制的独特功能,为研究人员提供了探索、分析和解释复杂生物数据的宝贵工具。

表 2 可视化概念按其与宏基因组可视化挑战的相关性进行组织。
 可视化挑战 可视化概念

表示复杂的关系
 马戏团、网络

处理大集合或交集

翻转图、维恩图

可视化样本的丰度
 热图、条形图

显示分层数据结构

树形图、树木、旭日图(克朗)

了解分类关系

树木、旭日图(克朗)

说明流程或过渡

桑基图、网络、蜂巢图

可视化多维数据

蜂巢图、3D 网络、降维方法

标准化多元化措施
 稀疏曲线

可视化遗传排列
 基因图谱、基因组查看器

更高分辨率的线性表示

空间填充图/曲线


6. 宏基因组可视化工具的主要应用


在这一部分中,我们展示了各种可视化工具,并根据其主要功能对它们进行组织。尽管我们的汇编可能并不详尽,但我们重点关注成熟的工具,以阐明在不断发展的数据可视化领域中可用于可视化宏基因组数据的一系列选项。这些工具分为主要组,包括质量控制、分箱、组装、基因组内容查看器、分类、社区和网络(表 3)。

表 3 代表性工具按其主要功能进行组织。
TOOL
按主要功能分类
 输入数据类型 许可证类型IMPLEMENTATIONLAST UPDATE
 快速质量控制 质量控制
原始序列数据(在任何比对或组装步骤之前)
 开源 独立式2023
 长QC
  • Fukasawa Y.
  • Ermini L.
  • Wang H.
  • Carty K.
  • Cheung M.-S.
LongQC: A Quality Control Tool for Third Generation Sequencing Long Read Data.
 质量控制
原始长读长测序数据(在任何比对或组装步骤之前 - PacBio 测序、Oxford Nanopore 测序)
 开源 独立式2023
MinIONQC
  • Lanfear R.
  • Schalamun M.
  • Kainer D.
  • Wang W.
  • Schwessinger B.
MinIONQC: fast and simple quality control for MinION sequencing data.
 质量控制
原始序列数据(在任何比对或组装步骤之前 - FASTQ、FAST5 格式)
 开源 独立式2020
 纳米包
  • De Coster W.
  • D’Hert S.
  • Schultz D.T.
  • Cruts M.
  • Van Broeckhoven C.
NanoPack: visualizing and processing long-read sequencing data.
 质量控制
原始序列数据(在任何比对或组装步骤之前 - FASTQ、FAST5 格式)
 开源 工具套件2023
SOAPnuke
  • Chen Y.
  • Chen Y.
  • Shi C.
  • Huang Z.
  • Zhang Y.
  • Li S.
  • et al.
SOAPnuke: a MapReduce acceleration-supported software for integrated quality control and preprocessing of high-throughput sequencing data.
Quality ControlRaw sequence data (before any alignment or assembly steps - FASTQ format)Open sourceStand-alone2024
SequelTools
  • Hufnagel D.E.
  • Hufford M.B.
  • Seetharam A.S.
SequelTools: a suite of tools for working with PacBio Sequel raw sequence data.
Quality ControlRaw Long-Read Sequencing Data (before any alignment or assembly steps - PacBio Sequencing, Oxford Nanopore Sequencing)Open sourceStand-alone2020
ABySS-Explorer
  • Nielsen C.B.
  • Jackman S.D.
  • Birol I.
  • Jones S.J.M.
ABySS-Explorer: visualizing genome sequence assemblies.
AssemblyABySS Assemblies (scaffolds or contigs in FASTA format), Raw sequence dataOpen sourceStand-alone2018
Assembly Graph Browser (AGB)
  • Mikheenko A.
  • Kolmogorov M.
Assembly Graph Browser: interactive visualization of assembly graphs.
AssemblyAssembly Graph Files (GFA (Graphical Fragment Assembly))Open sourceStand-alone2019
GfaViz
  • Gonnella G.
  • Niehus N.
  • Kurtz S.
GfaViz: flexible and interactive visualization of GFA sequence graphs.
AssemblyAssembly Graph Files (GFA (Graphical Fragment Assembly))Open sourceStand-alone2019
SGTK
  • Kunyavskaya O.
  • Prjibelski A.D.
SGTK: a toolkit for visualization and assessment of scaffold graphs.
AssemblyAssembly Graph Files (GFA (Graphical Fragment Assembly))Open sourceToolkitArchived in 2023
PanGraphViewer
  • Yuan Y.
  • Ma RK-K
  • Chan T.-F.
PanGraphViewer: a versatile tool to visualize pangenome graphs.
Assembly/PangenomePangenome graphs (rGFA, GFA_v1, VCF), Annotation Files (BED, GTF / GFF)Open sourceStand-alone2022
MetagenomeScopeAssemblyGFA, FASTG, GML, LastGraphOpen sourceWeb-based tool2020
BinaRena
  • Pavia M.J.
  • Chede A.
  • Wu Z.
  • Cadillo-Quiroz H.
  • Zhu Q.
BinaRena: a dedicated interactive platform for human-guided exploration and binning of metagenomes.
Binning(Human) Assembled Data (FASTA)BSD 3-Clause LicenseWeb application2023
CONCOCT
  • Alneberg J.
  • Bjarnason B.S.
  • de Bruijn I.
  • Schirmer M.
  • Quick J.
  • Ijaz U.Z.
  • et al.
BinningMetagenomic Sequencing data, Contig SequenceOpen sourceStand-alone2019
MetaWRAP
  • Uritskiy G.V.
  • DiRuggiero J.
  • Taylor J.
MetaWRAP—a flexible pipeline for genome-resolved metagenomic data analysis.
BinningMetagenomic sequencing data (FASTQ format), Assembled contigs (FASTA),Open sourcePipeline2020
VizBin
  • Laczny C.C.
  • Sternal T.
  • Plugaru V.
  • Gawron P.
  • Atashpendar A.
  • Margossian H.H.
  • et al.
VizBin - an application for reference-independent visualization and human-augmented binning of metagenomic data.
BinningMetagenomic Fragments (Contigs / reads)(FASTA)BSD License (4-clause)Stand-alone2019
Anvio
  • Eren A.M.
  • Kiefl E.
  • Shaiber A.
  • Veseli I.
  • Miller S.E.
  • Schechter M.S.
  • et al.
Community-led, integrated, reproducible multi-omics with anvi’o.
Contig & Genome Viewer / Communities / TaxonomyDNA sequence (FASTA), Contigs (FASTA), Short reads (FASTA), External / Internal genome databaseOpen sourceStand-alone2023
CGViewer.js
  • Stothard P.
  • Grant J.R.
  • Van Domselaar G.
Visualizing and comparing circular genomes using the CGView family of tools.
Contig & Genome ViewerJSON filesOpen sourceWeb-based tool2019
CRAMER
  • Anastasiadi M.
  • Bragin E.
  • Biojoux P.
  • Ahamed A.
  • Burgin J.
  • De Castro Cogle K.
  • et al.
CRAMER: a lightweight, highly customizable web-based genome browser supporting multiple visualization instances.
Contig, Genome & MSA ViewerMetagenomic sequence data (Raw DNA sequence / FASTA files)Open sourceStand-alone2019
Elviz
  • Cantor M.
  • Nordberg H.
  • Smirnova T.
  • Hess M.
  • Tringe S.
  • Dubchak I.
Elviz – exploration of metagenome assemblies with an interactive visualization tool.
Contig & Genome ViewerMetagenomic sequence data (Raw DNA sequence / FASTA files)Open sourceWeb-based application2024
GDV
  • Rangwala S.H.
  • Kuznetsov A.
  • Ananiev V.
  • Asztalos A.
  • Borodin E.
  • Evgeniev V.
  • et al.
Accessing NCBI data using the NCBI Sequence Viewer and Genome Data Viewer (GDV).
Contig, Genome & MSA ViewerRNA-seq data, ChIP-seq data, Genome Sequence Data, Proteomic Data & Epigenomic DataOpen sourceWeb-based application2021
Gosling
  • LYi S.
  • Wang Q.
  • Lekschas F.
  • Gehlenborg N.
Gosling: A Grammar-based Toolkit for Scalable and Interactive Genomics Data Visualization.
Contig, Genome & MSA ViewerMetagenomic sequence data (Raw DNA sequence / FASTA files)Open sourceToolkit2021
IMG/M
  • Chen I.-M.A.
  • Chu K.
  • Palaniappan K.
  • Pillay M.
  • Ratner A.
  • Huang J.
  • et al.
IMG/M v.5.0: an integrated data management and comparative analysis system for microbial genomes and microbiomes.
, IMG/VR
  • Camargo A.P.
  • Nayfach S.
  • Chen I.-M.A.
  • Palaniappan K.
  • Ratner A.
  • Chu K.
  • et al.
IMG/VR v4: an expanded database of uncultivated virus genomes within a framework of extensive functional, taxonomic, and ecological metadata.
Contig and Genome ViewerVisualization of IMG/M and IMG/VR contig annotationsOpen sourceWeb-based platforms2023
IGV
  • Thorvaldsdottir H.
  • Robinson J.T.
  • Mesirov J.P.
Integrative Genomics Viewer (IGV): high-performance genomics data visualization and exploration.
Genome ViewerMetagenome sequence data (FASTA), Alignment Data, Variant Calls, Gene Annotations (GFF)Open sourceStand-alone2023
JBrowse
  • Buels R.
  • Yao E.
  • Diesh C.M.
  • Hayes R.D.
  • Munoz-Torres M.
  • Helt G.
  • et al.
JBrowse: a dynamic web platform for genome visualization and analysis.
Genome ViewerMetagenome sequence data (FASTA), Alignment Data, Variant Calls, Gene Annotations (GFF)Open sourceStand-alone2024
MetaErg
  • Dong X.
  • Strous M.
An integrated pipeline for annotation and visualization of metagenomic contigs.
Contig ViewerMetagenomic Contig, Gene Prediction File, Taxonomic Information FileOpen sourceStand-alone pipeline2020
Tablet
  • Milne I.
  • Bayer M.
  • Cardle L.
  • Shaw P.
  • Stephen G.
  • Wright F.
  • et al.
Tablet—next generation sequence assembly visualization.
Genome ViewerSAM (Sequence Alignment/Map) and BAM (Binary Alignment/Map), Variant Call Format (VCF), Metagenome Sequence, Genome Assembly Files, Sequence Read FilesBSD-2-Clause licenseStand-alone2021
UCSC Genome Browser
  • Nassar L.R.
  • Barber G.P.
  • Benet-Pagès A.
  • Casper J.
  • Clawson H.
  • Diekhans M.
  • et al.
The UCSC Genome Browser database: 2023 update.
Genome & MSA ViewerGenome Sequence Data, Annotation Data (GFF), ChIP-Seq Data, RNA-seq Data, Multiple Sequence Alignments (MSA)Open sourceOnline portal2022
ENSEMBL
  • Cunningham F.
  • Allen J.E.
  • Allen J.
  • Alvarez-Jarreta J.
  • Amode M.R.
  • Armean I.M.
  • et al.
Ensembl 2022.
Genome ViewerGenome Sequence Data, Annotation Data (GFF), ChIP-Seq Data, RNA-seq Data, Multiple Sequence Alignments (MSA)Open sourceSuite of tools2024
Artemis
  • Carver T.
  • Harris S.R.
  • Berriman M.
  • Parkhill J.
  • McQuillan J.A.
Artemis: an integrated platform for visualization and analysis of high-throughput sequence-based experimental data.
Genome ViewerGenome Sequence Data, Annotation Data (Genebank, EMBL format)Open sourceStand-alone2011
UGENE
  • Okonechnikov K.
  • Golosova O.
  • Fursov M.
the UGENE team
Unipro UGENE: a unified bioinformatics toolkit.
Genome ViewerGenome Sequence Data (FASTA, GFF, SAM/BAM, BED), Annotation Data (Genebank, EMBL format, BED, GFF), Multiple Sequence Alignments (MAF), Expression Data FilesOpen sourceStand-alone2023
Geneious
  • Kearse M.
  • Moir R.
  • Wilson A.
  • Stones-Havas S.
  • Cheung M.
  • Sturrock S.
  • et al.
Geneious Basic: An integrated and extendable desktop software platform for the organization and analysis of sequence data.
Genome ViewerGenome Sequence Data (FASTA, GFF, SAM/BAM, BED), Annotation Data (Genebank, EMBL format, BED, GFF), Multiple Sequence Alignments (MAF), Expression Data FilesFree trial - Requires subscriptionPart of a software suite2023
BV-BRC
  • Olson R.D.
  • Assaf R.
  • Brettin T.
  • Conrad N.
  • Cucinell C.
  • Davis J.J.
  • et al.
Introducing the bacterial and viral bioinformatics resource center (BV-BRC): a resource combining PATRIC, IRD and ViPR.
MSA ViewerMultiple Sequence Alignments (MSA)PortalWeb-based resource2022
MSAViewer
  • Yachdav G.
  • Wilzbach S.
  • Rauscher B.
  • Sheridan R.
  • Sillitoe I.
  • Procter J.
  • et al.
MSAViewer: interactive JavaScript visualization of multiple sequence alignments.
MSA ViewerMultiple Sequence Alignments (MSA)Open sourceWeb-based application2023
Strudel
  • Bayer M.
  • Milne I.
  • Stephen G.
  • Shaw P.
  • Cardle L.
  • Wright F.
  • et al.
Comparative visualization of genetic and physical maps with Strudel.
MSA ViewerMetadata (CSV,TSV), Aligned Sequence Data, Phylogenetic Tree Data, Annotation Data (GFF)Open sourceStand alone2015
SuiteMSA
  • Anderson C.L.
  • Strope C.L.
  • Moriyama E.N.
SuiteMSA: visual tools for multiple sequence alignment comparison and molecular sequence simulation.
MSA ViewerMultiple Sequence Alignments (MSA)Open sourceStand alone2013
JalView
  • Waterhouse A.M.
  • Procter J.B.
  • Martin D.M.A.
  • Clamp M.
  • Barton G.J.
Jalview Version 2—a multiple sequence alignment editor and analysis workbench.
MSA ViewerMultiple Sequence Alignments (ex FASTA, Clustal, Stockholm)Open sourceStand alone2023
MSABrowser
  • Torun F.M.
  • Bilgin H.I.
  • Kaplan O.I.
MSABrowser: dynamic and fast visualization of sequence alignments, variations and annotations.
MSA ViewerMultiple Sequence Alignments (MSA)Open sourceStand-alone web-based application2021
Seaview
  • Gouy M.
  • Tannier E.
  • Comte N.
  • Parsons D.P.
Seaview Version 5: A Multiplatform Software for Multiple Sequence Alignment, Molecular Phylogenetic Analyses, and Tree Reconciliation.
MSA ViewerMultiple Sequence Alignments (ex FASTA, Clustal, Stockholm, PHYLIP)Open sourceStand-alone or helper application2024
Panache
  • Durant É.
  • Sabot F.
  • Conte M.
  • Rouard M.
Panache: a web browser-based viewer for linearized pangenomes.
Pangenome ViewerGraphical Fragment Assembly (GFA)Open sourceWeb-based interface2022
Pan-Tetris
  • Hennig A.
  • Bernhardt J.
  • Nieselt K.
Pan-Tetris: an interactive visualisation for Pan-genomes.
Pangenome ViewerPangenome map files (ex PanGee), meta-information (TIGRFAM)Open sourceSoftware tool2015
PanViz
  • Pedersen T.L.
  • Nookaew I.
  • Wayne Ussery D.
  • Månsson M.
PanViz: interactive visualization of the structure of functionally annotated pangenomes.
Pangenome ViewerPangenome Matrix (pattern of each gene group) and functional annotation files (GeneOntology)Open sourcePipeline2017
PanX
  • Ding W.
  • Baumdicker F.
  • Neher R.A.
panX: pan-genome analysis and exploration.
Pangenome ViewerSet of annotated bacterial strains (NCBI RefSeq, users input in GeneBank format)Open sourcePipeline2018
Pantools
  • Sheikhizadeh S.
  • Schranz M.E.
  • Akdel M.
  • De Ridder D.
  • Smit S.
PanTools: representation, storage and exploration of pan-genomic data.
Pangenome & Panproteome ViewerAnnotation Files (GTF / GFF), Multiple Sequence Alignment File (FASTA), Genomic Sequence Files (FASTA), Variations adding (VCF files and a PAV table)Open sourceStand-alone2024
Bifrost
  • Holley G.
  • Melsted P.
Bifrost: highly parallel construction and indexing of colored and compacted de Bruijn graphs.
Pangenome ViewerAnnotation Files (GTF / GFF), Multiple Sequence Alignment File (FASTA), Genomic Sequence Files (FASTA),Open sourceStand-alone2024
PanGenome Graph Builder
  • Li H.
  • Feng X.
  • Chu C.
The design and construction of reference pangenome graphs with minigraph.
Pangenome ViewerAnnotation Files (GTF / GFF), Multiple Sequence Alignment File (FASTA), Genomic Sequence Files (FASTA)Open sourceStand-alone2024
TwoPaCo
  • Minkin I.
  • Pham S.
  • Medvedev P.
TwoPaCo: an efficient algorithm to build the compacted de Bruijn graph from many complete genomes.
Pangenome ViewerAnnotation Files (GTF / GFF), Multiple Sequence Alignment File (FASTA), Genomic Sequence Files (FASTA)Open sourceStand-alone2022
Minigraph-Cactus
  • Hickey G.
  • Monlong J.
  • Ebler J.
  • Novak A.M.
  • Eizenga J.M.
  • Gao Y.
  • et al.
Pangenome graph construction from genome alignments with Minigraph-Cactus.
Pangenome ViewerAnnotation Files (GTF / GFF), Multiple Sequence Alignment File (FASTA), Genomic Sequence Files (FASTA)Open sourcePipeline2024
Jasper/Microbiome Maps
  • Valdes C.
  • Stebliankin V.
  • Ruiz-Perez D.
  • Park J.I.
  • Lee H.
  • Narasimhan G.
Microbiome maps: Hilbert curve visualizations of metagenomic profiles.
Abundance analysis / Taxonomy / Ecosystem visualizationAbundance profiles / OTU tableNot open sourceStand-alone2023
QIIME / QIIME 2
  • Estaki M.
  • Jiang L.
  • Bokulich N.A.
  • McDonald D.
  • González A.
  • Kosciolek T.
  • et al.
QIIME 2 enables comprehensive end‐to‐end analysis of diverse microbiome data and comparative studies with publicly available data.
Communities/ Taxonomyraw DNA sequence readsOpen sourceAnalysis package2024
Phyloseq
  • McMurdie P.J.
  • Holmes S.
phyloseq: An R package for reproducible interactive analysis and graphics of microbiome census data.
Communities/ TaxonomyOTU table (operational taxonomic units), phylogenetic treeOpen sourceR package2013
MicrobiomeAnalyet
  • Dhariwal A.
  • Chong J.
  • Habib S.
  • King I.L.
  • Agellon L.B.
  • Xia J.
MicrobiomeAnalyst: a web-based tool for comprehensive statistical, visual and meta-analysis of microbiome data.
Communities/ Taxonomy/PCA visualizationOTU table (operational taxonomic units), taxon list, gene list, Gene abundance table, BIOM fileOpen sourceWeb-based platform2024
MetagenomeSeq

Joseph Nathaniel Paulson HT. metagenomeSeq 2017. https://doi.org/10.18129/B9.BIOC.METAGENOMESEQ .

Communities/ Taxonomy/PCA visualizationTaxonomic or Functional Annotations, Count Data TableOpen sourceR package2019
MEGA
  • Tamura K.
  • Stecher G.
  • Kumar S.
MEGA11: molecular evolutionary genetics analysis version 11.
TaxonomyMetagenome sequence data (FASTA), Phylogenetic Data (NEXUS, NEWICK)Open sourceCan be used as stand-alone and as part of a pipeline2022
PAUP

Wilgenbusch J.C., Swofford D. Inferring Evolutionary Trees with PAUP *. CP in Bioinformatics 2003;00. https://doi.org/10.1002/0471250953.bi0604s00 .

TaxonomyMetagenome sequence data (FASTA), Phylogenetic Data (NEXUS, NEWICK)Proprietary, and thus commercialStand-alone2007
FigTreeTaxonomyPhylogenetic Data (NEXUS, NEWICK)Open sourceStand-alone2018
iTOL
  • Letunic I.
  • Bork P.
Interactive Tree Of Life (iTOL): an online tool for phylogenetic tree display and annotation.
,
  • Zhou T.
  • Xu K.
  • Zhao F.
  • Liu W.
  • Li L.
  • Hua Z.
  • et al.
itol.toolkit accelerates working with iTOL (Interactive Tree of Life) by an automated generation of annotation files.
TaxonomyPhylogenetic Data (NEXUS, NEWICK)Open sourceWeb-based platform2023
PhyD3
  • Kreft Ł.
  • Botzki A.
  • Coppens F.
  • Vandepoele K.
  • Van Bel M.
PhyD3: a phylogenetic tree viewer with extended phyloXML support for functional genomics data visualization.
TaxonomyPhylogenetic Data (NEXUS, NEWICK)Open sourceWeb-based tool2017
Dendroscope
  • Huson D.H.
  • Scornavacca C.
Dendroscope 3: an interactive tool for rooted phylogenetic trees and networks.
Taxonomy (viewer)Phylogenetic Data (NEXUS, NEWICK)Open sourceStand-alone2023
Cytoscape
  • Saito R.
  • Smoot M.E.
  • Ono K.
  • Ruscheinski J.
  • Wang P.-L.
  • Lotia S.
  • et al.
A travel guide to Cytoscape plugins.
,
  • Shannon P.
  • Markiel A.
  • Ozier O.
  • Baliga N.S.
  • Wang J.T.
  • Ramage D.
  • et al.
Cytoscape: a software environment for integrated models of biomolecular interaction networks.
Network visualizationGraphs - Lists (source - destination)Open sourceStand-alone2023
Gephi

Bastian M., Heymann S., Jacomy M. Gephi: An Open Source Software for Exploring and Manipulating Networks 2009. https://doi.org/10.13140/2.1.1341.1520 .

Network visualizationGraphs - Lists (source - destination)Open sourceStand-alone2023
Pajek
  • Mrvar A.
  • Batagelj V.
Analysis and visualization of large networks with program package Pajek.
Network visualization

Large Networks
Has its file formatOpen sourceStand-alone2023
Arena3Dweb
  • Karatzas E.
  • Baltoumas F.A.
  • Panayiotou N.A.
  • Schneider R.
  • Pavlopoulos G.A.
Arena3Dweb: interactive 3D visualization of multilayered networks.
,
  • Kokoli M.
  • Karatzas E.
  • Baltoumas F.A.
  • Schneider R.
  • Pafilis E.
  • Paragkamian S.
  • et al.
Arena3Dweb: interactive 3D visualization of multilayered networks supporting multiple directional information channels, clustering analysis and application integration.
Network visualization

3D Multilayered Networks
Network lists (source - destination but by defining their layers)Open sourceWeb server and stand-alone2023
NORMA
  • Koutrouli M.
  • Karatzas E.
  • Papanikolopoulou K.
  • Pavlopoulos G.A.
NORMA: the network makeup artist — a web tool for network annotation visualization.
,
  • Karatzas E.
  • Koutrouli M.
  • Baltoumas F.A.
  • Papanikolopoulou K.
  • Bouyioukos C.
  • Pavlopoulos G.A.
The network makeup artist (NORMA-2.0): distinguishing annotated groups in a network using innovative layout strategies.
Network and group visualizationNetwork lists (source - destination) and annotation files (nodes and the annotation group they belong to)Open sourceWeb server and stand-alone2022

 6.1 质量控制


在宏基因组分析中,常见的做法是从原始序列数据生成支架或宏基因组组装基因组 (MAG)。此过程中关键的初始阶段是对原始数据进行质量控制 (QC)。这包括评估读数和碱基质量、修剪接头、分析 GC 分布、消除受污染的读数、解决富集偏差、生成质量指标以及各种其他步骤。为此目的创建了许多工具,生成上述统计数据的可视化表示,例如 FastQC、LongQC [
  • Fukasawa Y.
  • Ermini L.
  • Wang H.
  • Carty K.
  • Cheung M.-S.
LongQC: A Quality Control Tool for Third Generation Sequencing Long Read Data.
]、MinIONQC [
  • Lanfear R.
  • Schalamun M.
  • Kainer D.
  • Wang W.
  • Schwessinger B.
MinIONQC: fast and simple quality control for MinION sequencing data.
] 和 NanoPack [
  • De Coster W.
  • D’Hert S.
  • Schultz D.T.
  • Cruts M.
  • Van Broeckhoven C.
NanoPack: visualizing and processing long-read sequencing data.

 6.2 组装


基因组组装是一个复杂的过程,涉及将 DNA 序列拼凑在一起,本质上是构建生物体基因组数据的扩展 DNA 序列(重叠群),以试图重建其完整的基因组。生物体的基因组是其全部 DNA 内容,包括基因和非编码区。如果参考基因组可用,则将读数与该基因组进行比对,而在没有参考基因组的情况下,则采用从头组装。从头组装对于研究非模式生物、具有显着结构变异的基因组或具有不同基因组的群体尤其重要。

组装可视化是指基因组组装过程结果的图形表示,有助于研究人员了解组装基因组的结构和特征。可视化基因组组装对于质量评估、识别潜在问题和深入了解整体基因组架构至关重要。为此,可以使用大量工具进行从头宏基因组组装 [
  • Yang C.
  • Chowdhury D.
  • Zhang Z.
  • Cheung W.K.
  • Lu A.
  • Bian Z.
  • et al.
A review of computational tools for generating metagenome-assembled genomes from metagenomic sequencing data.
  • Gupta S.K.
  • Raza S.
  • Unno T.
Comparison of de-novo assembly tools for plasmid metagenome analysis.
  • Lapidus A.L.
  • Korobeynikov A.I.
Metagenomic data assembly – the way of decoding unknown microorganisms.
  • Vollmers J.
  • Wiegand S.
  • Kaster A.-K.
Comparing and evaluating metagenome assembly tools from a microbiologist’s perspective - not only size matters!.
  • Breitwieser F.P.
  • Lu J.
  • Salzberg S.L.
A review of methods and databases for metagenomic classification and assembly.
](图3)。 Omega [
  • Haider B.
  • Ahn T.-H.
  • Bushnell B.
  • Chai J.
  • Copeland A.
  • Pan C.
Omega: an Overlap-graph de novo assembler for metagenomics.
] 汇编器使用重叠图,专为宏基因组组装而开发。 Velvet [
  • Zerbino D.R.
Using the Velvet de novo assembler for short‐read sequencing technologies.
] 专为短读长测序数据而设计,其扩展 MetaVelvet [
  • Namiki T.
  • Hachiya T.
  • Tanaka H.
  • Sakakibara Y.
MetaVelvet: an extension of Velvet assembler to de novo metagenome assembly from short sequence reads.
] 旨在使用 de-布鲁因图。 MEGAHIT [
  • Li D.
  • Liu C.-M.
  • Luo R.
  • Sadakane K.
  • Lam T.-W.
MEGAHIT: an ultra-fast single-node solution for large and complex metagenomics assembly via succinct de Bruijn graph.
] 使用简洁的 de Bruijn 图来组装大型且复杂的宏基因组数据,而 BCALM 2 [
  • Chikhi R.
  • Limasset A.
  • Medvedev P.
Compacting de Bruijn graphs from sequencing data quickly and in low memory.
] 旨在通过实现 de Bruijn 的压缩来提高过程的可扩展性图表。使用 de Bruijn 图的另一个工具是 metaSPAdes [
  • Nurk S.
  • Meleshko D.
  • Korobeynikov A.
  • Pevzner P.A.
metaSPAdes: a new versatile metagenomic assembler.
],它构成了 SPAdes 的扩展,适应了复杂的宏基因组数据。 MetaCarvel [
  • Ghurye J.
  • Treangen T.
  • Fedarko M.
  • Hervey W.J.
  • Pop M.
MetaCarvel: linking assembly graph motifs to biological variants.
] 执行宏基因组组装,同时可以检测基因组变异。一些著名的可视化工具包括 ABySS-Explorer [
  • Nielsen C.B.
  • Jackman S.D.
  • Birol I.
  • Jones S.J.M.
ABySS-Explorer: visualizing genome sequence assemblies.
]、AGB [
  • Mikheenko A.
  • Kolmogorov M.
Assembly Graph Browser: interactive visualization of assembly graphs.
]、Bandage [
  • Wick R.R.
  • Schultz M.B.
  • Zobel J.
  • Holt K.E.
Bandage: interactive visualization of de novo genome assemblies.
]、GfaViz [
  • Gonnella G.
  • Niehus N.
  • Kurtz S.
GfaViz: flexible and interactive visualization of GFA sequence graphs.
]、 MetagenomeScope、PanGraphviewer [
  • Yuan Y.
  • Ma RK-K
  • Chan T.-F.
PanGraphViewer: a versatile tool to visualize pangenome graphs.
] 和 SGTK [
  • Kunyavskaya O.
  • Prjibelski A.D.
SGTK: a toolkit for visualization and assessment of scaffold graphs.
]。
Fig. 3

图3(A-C)基于图形的大肠杆菌序列组装可视化。 K-12 底物 MG1655 与 (A) 绷带、(B) GFaviz 和 (C) AbyssExplorer (NCBI:txid511145)。 (D) 使用 MetaWrap 可视化基因组草案 bin 丰度的热图(生物项目登录号:PRJEB2054,ID:203783)。 (E) 使用 BinaRena 对 MAG 进行分箱,突出显示 214 个大肠杆菌箱(BioProject:PRJNA382010)。 (F) CGView:圆形格式的大肠杆菌 PA2(NCBI RefSeq 组装 GCF_000335355.2)的基因组重叠群查看器。 (G-H) 使用 (G) IMG 和 (H) UCSC 基因组查看器对大肠杆菌 K-12 进行支架可视化。 (I) 泛基因组图示例。

 6.3 分箱


Βinning 是宏基因组分析中的关键步骤,涉及对基因组片段(contigs)进行分组以重建微生物基因组草案(MAG)[
  • Yue Y.
  • Huang H.
  • Qi Z.
  • Dou H.-M.
  • Liu X.-Y.
  • Han T.-F.
  • et al.
Evaluating metagenomics tools for genome binning with real metagenomic datasets and CAMI datasets.
](图3)。诸如 MetaBAT [
  • Kang D.D.
  • Li F.
  • Kirton E.
  • Thomas A.
  • Egan R.
  • An H.
  • et al.
MetaBAT 2: an adaptive binning algorithm for robust and efficient genome reconstruction from metagenome assemblies.
  • Kang D.D.
  • Froula J.
  • Egan R.
  • Wang Z.
MetaBAT, an efficient tool for accurately reconstructing single genomes from complex microbial communities.
]、BinaRena [
  • Pavia M.J.
  • Chede A.
  • Wu Z.
  • Cadillo-Quiroz H.
  • Zhu Q.
BinaRena: a dedicated interactive platform for human-guided exploration and binning of metagenomes.
]、ICOveR [
  • Broeksema B.
  • Calusinska M.
  • McGee F.
  • Winter K.
  • Bongiovanni F.
  • Goux X.
  • et al.
ICoVeR – an interactive visualization tool for verification and refinement of metagenomic bins.
]、MyCC [
  • Lin H.-H.
  • Liao Y.-C.
Accurate binning of metagenomic contigs via automated clustering sequences using information of genomic signatures and marker genes.
]、CONCOCT [
  • Alneberg J.
  • Bjarnason B.S.
  • de Bruijn I.
  • Schirmer M.
  • Quick J.
  • Ijaz U.Z.
  • et al.
]、VizBin [
  • Laczny C.C.
  • Sternal T.
  • Plugaru V.
  • Gawron P.
  • Atashpendar A.
  • Margossian H.H.
  • et al.
VizBin - an application for reference-independent visualization and human-augmented binning of metagenomic data.
] 和 MetaWRAP [
  • Uritskiy G.V.
  • DiRuggiero J.
  • Taylor J.
MetaWRAP—a flexible pipeline for genome-resolved metagenomic data analysis.
] 提供帮助在此过程中,采用不同的可视化方法和交互界面来实现用户友好的探索和细化箱分配。 BinaRena [
  • Pavia M.J.
  • Chede A.
  • Wu Z.
  • Cadillo-Quiroz H.
  • Zhu Q.
BinaRena: a dedicated interactive platform for human-guided exploration and binning of metagenomes.
] 提供了一个全面的界面,允许重叠群的散点图可视化和 bin 关联编辑。同时,ICoveR [
  • Broeksema B.
  • Calusinska M.
  • McGee F.
  • Winter K.
  • Bongiovanni F.
  • Goux X.
  • et al.
ICoVeR – an interactive visualization tool for verification and refinement of metagenomic bins.
] 专注于基于使用平行坐标和降维图的多种分箱算法的分箱管理。 MyCC [
  • Lin H.-H.
  • Liao Y.-C.
Accurate binning of metagenomic contigs via automated clustering sequences using information of genomic signatures and marker genes.
] 通过虚拟机简化分箱,强调基于标记基因的聚类和基因组特征分析。 Gbtools [
  • Seah B.K.B.
  • Gruber-Vodicka H.R.
gbtools: interactive visualization of metagenome bins in R.
] 擅长可视化覆盖范围、GC 内容和分类注释,帮助 bin 注释和细化。 MetaWRAP [
  • Uritskiy G.V.
  • DiRuggiero J.
  • Taylor J.
MetaWRAP—a flexible pipeline for genome-resolved metagenomic data analysis.
]是一个模块化管道,可自动执行宏基因组数据处理、提取和细化高质量的数据箱,提供分类分配、丰度估计、功能注释和多功能可视化工具。这些工具共同满足了准确、高效分箱的需求,满足研究人员不同的专业水平并改善整体宏基因组分析结果 [
  • Yue Y.
  • Huang H.
  • Qi Z.
  • Dou H.-M.
  • Liu X.-Y.
  • Han T.-F.
  • et al.
Evaluating metagenomics tools for genome binning with real metagenomic datasets and CAMI datasets.
]。

 6.4 社区检测


宏基因组分析分为几个关键步骤,每个步骤都有助于全面了解微生物群落。聚类是生物信息学和宏基因组分析中的一项基本技术,可以揭示复杂数据集中的潜在模式和关系。层次聚类作为一种重要的非基于图的方法脱颖而出。它将序列组织成簇的层次结构,通常可视化为树状图,提供微生物实体之间关系的深刻表示。凝聚方法(其中各个簇逐渐合并)和分裂方法(其中单个簇迭代地划分)是两种主要策略。广泛使用的凝聚层次聚类算法包括单联动、完全联动、质心联动和平均联动方法,以及邻居连接[
  • Saitou N.
  • Nei M.
The neighbor-joining method: a new method for reconstructing phylogenetic trees.
]和算术平均的未加权对组方法(UPGMA)。每次迭代都会在树状图中产生一个新的级别,并且切割阈值(通常是用户定义的或使用动态树切割或 PAC 贝叶斯等方法自动化)描绘出不同的集群。虽然层次聚类功能强大,但由于需要全距离矩阵且计算复杂度高,因此其在大规模分析中的适用性受到限制。

另一种方法是应用基于图的聚类[
  • Xu R.
  • Wunsch D.
Survey of clustering algorithms.
  • Brohée S.
  • van Helden J.
Evaluation of clustering algorithms for protein-protein interaction networks.
]来检测构建的网络上的社区(例如,序列相似性网络[
  • Atkinson H.J.
  • Morris J.H.
  • Ferrin T.E.
  • Babbitt P.C.
Using Sequence Similarity Networks for Visualization of Relationships Across Diverse Protein Superfamilies.
],或平均核苷酸同一性 (ANI) 网络 [
  • Yoon S.-H.
  • Ha S.-M.
  • Lim J.
  • Kwon S.
  • Chun J.
A large-scale evaluation of algorithms to calculate average nucleotide identity.
])。可扩展的基于图的聚类,例如 HipMCL [
  • Azad A.
  • Pavlopoulos G.A.
  • Ouzounis C.A.
  • Kyrpides N.C.
  • Buluç A.
HipMCL: a high-performance parallel implementation of the Markov clustering algorithm for large-scale networks.
]、Louvain [
  • Blondel V.D.
  • Guillaume J.-L.
  • Lambiotte R.
  • Lefebvre E.
Fast unfolding of communities in large networks.
] 或 SPICi [
  • Jiang P.
  • Singh M.
SPICi: a fast clustering algorithm for large biological networks.
],可以直接应用于此类网络。值得注意的是,可以使用可扩展的生物信息学工具进行成对相似性比较,例如 PASTIS [

Selvitopi O., Ekanayake S., Guidi G., Pavlopoulos G.A., Azad A., Buluc A. Distributed Many-to-Many Protein Sequence Alignment using Sparse Matrices. SC20: International Conference for High Performance Computing, Networking, Storage and Analysis, Atlanta, GA, USA: IEEE; 2020, p. 1–14. https://doi.org/10.1109/SC41405.2020.00079 .

Selvitopi O., Ekanayake S., Guidi G., Awan M.G., Pavlopoulos G.A., Azad A., et al. Extreme-Scale Many-against-Many Protein Similarity Search. SC22: International Conference for High Performance Computing, Networking, Storage and Analysis, Dallas, TX, USA: IEEE; 2022, p. 1–12. https://doi.org/10.1109/SC41404.2022.00006 .

]、last [
  • Kiełbasa S.M.
  • Wan R.
  • Sato K.
  • Horton P.
  • Frith M.C.
Adaptive seeds tame genomic sequence comparison.
] 或 MMseqs [
  • Steinegger M.
  • Söding J.
MMseqs2 enables sensitive protein sequence searching for the analysis of massive data sets.
]。 ClusterMaker [
  • Lapidus A.L.
  • Korobeynikov A.I.
Metagenomic data assembly – the way of decoding unknown microorganisms.
] 是一个 Cytoscape 插件 [
  • Torun F.M.
  • Bilgin H.I.
  • Kaplan O.I.
MSABrowser: dynamic and fast visualization of sequence alignments, variations and annotations.
],包含多种基于网络的聚类算法。

有多种工具可促进宏基因组分析中的聚类和可视化,例如 QIIME 2 [
  • Estaki M.
  • Jiang L.
  • Bokulich N.A.
  • McDonald D.
  • González A.
  • Kosciolek T.
  • et al.
QIIME 2 enables comprehensive end‐to‐end analysis of diverse microbiome data and comparative studies with publicly available data.
]、Anvi'o [
  • Eren A.M.
  • Esen Ö.C.
  • Quince C.
  • Vineis J.H.
  • Morrison H.G.
  • Sogin M.L.
  • et al.
Anvi’o: an advanced analysis and visualization platform for ‘omics data.
] 和 Phyloseq [
  • McMurdie P.J.
  • Holmes S.
phyloseq: An R package for reproducible interactive analysis and graphics of microbiome census data.
]。例如,微生物生态学定量洞察(QIIME,版本 2)工具集成了用于微生物群落分析的层次聚类方法,并通过交互式图提供可视化[
  • Estaki M.
  • Jiang L.
  • Bokulich N.A.
  • McDonald D.
  • González A.
  • Kosciolek T.
  • et al.
QIIME 2 enables comprehensive end‐to‐end analysis of diverse microbiome data and comparative studies with publicly available data.
  • Caporaso J.G.
  • Kuczynski J.
  • Stombaugh J.
  • Bittinger K.
  • Bushman F.D.
  • Costello E.K.
  • et al.
QIIME allows analysis of high-throughput community sequencing data.
]。此外,Anvi'o [
  • Eren A.M.
  • Esen Ö.C.
  • Quince C.
  • Vineis J.H.
  • Morrison H.G.
  • Sogin M.L.
  • et al.
Anvi’o: an advanced analysis and visualization platform for ‘omics data.
]不仅结合了层次聚类,还提供了用于探索和可视化宏基因组数据的交互界面,增强了复杂微生物群落结构的可解释性。凭借其广泛的交互式可视化功能,Anvi'o [
  • Eren A.M.
  • Esen Ö.C.
  • Quince C.
  • Vineis J.H.
  • Morrison H.G.
  • Sogin M.L.
  • et al.
Anvi’o: an advanced analysis and visualization platform for ‘omics data.
] 是一个综合平台,集成了数据支持的微生物学最先进的计算策略的许多方面,例如系统基因组学、泛基因组学、以用户友好且无缝的方式进行宏基因组学、宏转录组学、基因组学和微生物群体遗传学。 Phyloseq [
  • McMurdie P.J.
  • Holmes S.
phyloseq: An R package for reproducible interactive analysis and graphics of microbiome census data.
] 是一个用于分析和可视化微生物组数据的 R 包。它提供了一系列可视化选项,包括交互式图和热图,以探索微生物群落的多样性和组成。

主成分分析 (PCA) [
  • Jolliffe I.T.
  • Cadima J.
Principal component analysis: a review and recent developments.
] 有助于突出微生物群落之间的差异,根据样本的组成和丰度概况提供样本之间关系的整体视图。执行 PCA 分析和可视化的工具非常有用。 EMPeror [
  • Vázquez-Baeza Y.
  • Pirrung M.
  • Gonzalez A.
  • Knight R.
EMPeror: a tool for visualizing high-throughput microbial community data.
] 是嵌入到 QIIME 套件中的最有用的 PCA 分析工具之一。

当前版本的 QIIME2 [
  • Estaki M.
  • Jiang L.
  • Bokulich N.A.
  • McDonald D.
  • González A.
  • Kosciolek T.
  • et al.
QIIME 2 enables comprehensive end‐to‐end analysis of diverse microbiome data and comparative studies with publicly available data.
] 支持 PCA 可视化,支持 PCA 结果的交互式探索。 QIIME2 提供动态和可定制的绘图,增强宏基因组数据的可解释性。用于 PCA 分析和可视化的其他工具包括 MicrobiomeAnalyst [
  • Dhariwal A.
  • Chong J.
  • Habib S.
  • King I.L.
  • Agellon L.B.
  • Xia J.
MicrobiomeAnalyst: a web-based tool for comprehensive statistical, visual and meta-analysis of microbiome data.
] 和 MetagenomeSeq [

Joseph Nathaniel Paulson HT. metagenomeSeq 2017. https://doi.org/10.18129/B9.BIOC.METAGENOMESEQ .

]。 MicrobiomeAnalyst [
  • Dhariwal A.
  • Chong J.
  • Habib S.
  • King I.L.
  • Agellon L.B.
  • Xia J.
MicrobiomeAnalyst: a web-based tool for comprehensive statistical, visual and meta-analysis of microbiome data.
] 是一个基于网络的平台,集成了多种统计和生物信息学工具。它包括 PCA 可视化作为其多元统计分析套件的一部分,为探索微生物群落的分离和聚类提供交互式可视化。 MetagenomeSeq 是一个 R 软件包,专为宏基因组测序数据的统计分析而设计。它采用主成分分析(PCA)作为探索样本差异的方法。研究人员可以利用该软件包生成 PCA 图,并深入了解影响微生物群落数据中观察到的模式的因素。


6.5 基因组/重叠群查看器


基因组查看器是用于可视化和分析基因组数据的工具,为研究人员、科学家和生物信息学家提供遗传信息的图形表示,使他们能够探索、解释和理解基因组的复杂性 [
  • Pavlopoulos G.A.
  • Malliarakis D.
  • Papanikolaou N.
  • Theodosiou T.
  • Enright A.J.
  • Iliopoulos I.
Visualizing genome and systems biology: technologies, tools, implementation techniques and trends, past, present and future.
]。基因组浏览器工具,例如 CGViewer.js [
  • Stothard P.
  • Grant J.R.
  • Van Domselaar G.
Visualizing and comparing circular genomes using the CGView family of tools.
]、Elviz [
  • Cantor M.
  • Nordberg H.
  • Smirnova T.
  • Hess M.
  • Tringe S.
  • Dubchak I.
Elviz – exploration of metagenome assemblies with an interactive visualization tool.
]、IMG/M [
  • Chen I.-M.A.
  • Chu K.
  • Palaniappan K.
  • Pillay M.
  • Ratner A.
  • Huang J.
  • et al.
IMG/M v.5.0: an integrated data management and comparative analysis system for microbial genomes and microbiomes.
]、IMG/VR [
  • Camargo A.P.
  • Nayfach S.
  • Chen I.-M.A.
  • Palaniappan K.
  • Ratner A.
  • Chu K.
  • et al.
IMG/VR v4: an expanded database of uncultivated virus genomes within a framework of extensive functional, taxonomic, and ecological metadata.
]、IGV [
  • Thorvaldsdottir H.
  • Robinson J.T.
  • Mesirov J.P.
Integrative Genomics Viewer (IGV): high-performance genomics data visualization and exploration.
]、UCSC 基因组浏览器 [
  • Nassar L.R.
  • Barber G.P.
  • Benet-Pagès A.
  • Casper J.
  • Clawson H.
  • Diekhans M.
  • et al.
The UCSC Genome Browser database: 2023 update.
]、GDV、JBrowse [
  • Buels R.
  • Yao E.
  • Diesh C.M.
  • Hayes R.D.
  • Munoz-Torres M.
  • Helt G.
  • et al.
JBrowse: a dynamic web platform for genome visualization and analysis.
]、Avio [
  • Eren A.M.
  • Esen Ö.C.
  • Quince C.
  • Vineis J.H.
  • Morrison H.G.
  • Sogin M.L.
  • et al.
Anvi’o: an advanced analysis and visualization platform for ‘omics data.
]、MetaErg [
  • Dong X.
  • Strous M.
An integrated pipeline for annotation and visualization of metagenomic contigs.
]、平板电脑 [
  • Milne I.
  • Bayer M.
  • Cardle L.
  • Shaw P.
  • Stephen G.
  • Wright F.
  • et al.
Tablet—next generation sequence assembly visualization.
]、Strudel [
  • Bayer M.
  • Milne I.
  • Stephen G.
  • Shaw P.
  • Cardle L.
  • Wright F.
  • et al.
Comparative visualization of genetic and physical maps with Strudel.
] 和 CRAMER [ < b13>]为基因组数据的探索提供了多种优势和功能[
  • Wang J.
  • Kong L.
  • Gao G.
  • Luo J.
A brief introduction to web-based genome browsers.
]。这些工具可以通过宏基因组组装进行多维导航,绘制 GC 含量、相对丰度、系统发育隶属关系和重叠群长度等参数。它们通过实时导航、搜索、过滤和从社区概况深入到单个基因注释来促进交互式探索。此外,这些浏览器支持各种数据类型的灵活集成,包括临床数据、比对序列读取、突变、拷贝数、RNAi 筛选、基因表达和基因组注释。用户可以从跨多个分辨率尺度的大型数据集的有效探索中受益,类似于 Google 地图的无缝缩放和平移功能。这些工具提供可定制的曲目显示、元数据访问、功能上下文菜单以及多样化的曲目选择方法,从而增强用户交互和数据可视化。

泛基因组查看器是旨在可视化和分析泛基因组数据的工具或软件应用程序。这些工具通过提供全基因组的交互式和信息丰富的视觉表示,帮助研究人员探索一个物种或一组相关生物体内的遗传多样性[
  • Eizenga J.M.
  • Novak A.M.
  • Sibbesen J.A.
  • Heumos S.
  • Ghaffaari A.
  • Hickey G.
  • et al.
Pangenome Graphs.
  • Andreace F.
  • Lechat P.
  • Dufresne Y.
  • Chikhi R.
Comparing methods for constructing and representing human pangenome graphs.
  • Vernikos G.S.
A Review of Pangenome Tools and Recent Studies.
]。其中,流行的泛基因组查看器包括 Panache [
  • Durant É.
  • Sabot F.
  • Conte M.
  • Rouard M.
Panache: a web browser-based viewer for linearized pangenomes.
]、Pan-Tetris [
  • Hennig A.
  • Bernhardt J.
  • Nieselt K.
Pan-Tetris: an interactive visualisation for Pan-genomes.
]、PanViz [
  • Pedersen T.L.
  • Nookaew I.
  • Wayne Ussery D.
  • Månsson M.
PanViz: interactive visualization of the structure of functionally annotated pangenomes.
] 和 PanX [
  • Ding W.
  • Baumdicker F.
  • Neher R.A.
panX: pan-genome analysis and exploration.
]、Roary [
  • Page A.J.
  • Cummins C.A.
  • Hunt M.
  • Wong V.K.
  • Reuter S.
  • Holden M.T.G.
  • et al.
Roary: rapid large-scale prokaryote pan genome analysis.
]、Panseq [
  • Laing C.
  • Buchanan C.
  • Taboada E.N.
  • Zhang Y.
  • Kropinski A.
  • Villegas A.
  • et al.
Pan-genome sequence analysis using Panseq: an online tool for the rapid analysis of core and accessory genomic regions.
]、PanGraphViewer [
  • Yuan Y.
  • Ma RK-K
  • Chan T.-F.
PanGraphViewer: a versatile tool to visualize pangenome graphs.
]、Pantools [
  • Sheikhizadeh S.
  • Schranz M.E.
  • Akdel M.
  • De Ridder D.
  • Smit S.
PanTools: representation, storage and exploration of pan-genomic data.
]、Bifrost [
  • Holley G.
  • Melsted P.
Bifrost: highly parallel construction and indexing of colored and compacted de Bruijn graphs.
]、PanGenome Graph Builder [
  • Li H.
  • Feng X.
  • Chu C.
The design and construction of reference pangenome graphs with minigraph.
]、Minigraph-Cactus [
  • Hickey G.
  • Monlong J.
  • Ebler J.
  • Novak A.M.
  • Eizenga J.M.
  • Gao Y.
  • et al.
Pangenome graph construction from genome alignments with Minigraph-Cactus.
] 和 TwoPaCo [ < b15>]。

Contig 可视化工具用于表示和分析由短 DNA 测序读数组装的 DNA 或其他生物分子的连续序列。可视化重叠群对于评估基因组或转录组组装的质量、识别结构变异以及深入了解基因组区域的组织至关重要。已建立的工具有绷带 [
  • Wick R.R.
  • Schultz M.B.
  • Zobel J.
  • Holt K.E.
Bandage: interactive visualization of de novo genome assemblies.
]、平板电脑 [
  • Milne I.
  • Bayer M.
  • Cardle L.
  • Shaw P.
  • Stephen G.
  • Wright F.
  • et al.
Tablet—next generation sequence assembly visualization.
]、IGV(综合基因组查看器)[
  • Thorvaldsdottir H.
  • Robinson J.T.
  • Mesirov J.P.
Integrative Genomics Viewer (IGV): high-performance genomics data visualization and exploration.
]、Artemis [
  • Carver T.
  • Harris S.R.
  • Berriman M.
  • Parkhill J.
  • McQuillan J.A.
Artemis: an integrated platform for visualization and analysis of high-throughput sequence-based experimental data.
]、UGENE [
  • Okonechnikov K.
  • Golosova O.
  • Fursov M.
the UGENE team
Unipro UGENE: a unified bioinformatics toolkit.
] 和 Geneious [
  • Kearse M.
  • Moir R.
  • Wilson A.
  • Stones-Havas S.
  • Cheung M.
  • Sturrock S.
  • et al.
Geneious Basic: An integrated and extendable desktop software platform for the organization and analysis of sequence data.
]。 Bandage 是一个图形查看器,用于探索重叠群之间的连接、识别结构变化以及可视化整个组装图。虽然 IGV 主要被称为基因组浏览器,但它还允许用户可视化重叠群及其比对。它是一种广泛用于检查基因组数据(包括各种类型的测序数据)的多功能工具。 Artemis 是一种基因组浏览器和注释工具,可实现重叠群、基因和其他基因组特征的可视化。它对于注释细菌和古细菌基因组特别有用。 Geneious 是一个综合平台,包括序列分析和组装工具。它提供了一个用户友好的界面,用于可视化重叠群、探索组装以及执行各种分子生物学任务。

最后,多序列比对 (MSA) 对于比较和理解同源序列之间的相似性和差异至关重要。多序列比对 (MSA) 可视化工具,例如 AlignmentViewer、BV-BRC [
  • Olson R.D.
  • Assaf R.
  • Brettin T.
  • Conrad N.
  • Cucinell C.
  • Davis J.J.
  • et al.
Introducing the bacterial and viral bioinformatics resource center (BV-BRC): a resource combining PATRIC, IRD and ViPR.
]、MSAViewer [
  • Yachdav G.
  • Wilzbach S.
  • Rauscher B.
  • Sheridan R.
  • Sillitoe I.
  • Procter J.
  • et al.
MSAViewer: interactive JavaScript visualization of multiple sequence alignments.
]、Seaview [
  • Gouy M.
  • Tannier E.
  • Comte N.
  • Parsons D.P.
Seaview Version 5: A Multiplatform Software for Multiple Sequence Alignment, Molecular Phylogenetic Analyses, and Tree Reconciliation.
]、JalView [
  • Waterhouse A.M.
  • Procter J.B.
  • Martin D.M.A.
  • Clamp M.
  • Barton G.J.
Jalview Version 2—a multiple sequence alignment editor and analysis workbench.
]、MSABrowser [
  • Torun F.M.
  • Bilgin H.I.
  • Kaplan O.I.
MSABrowser: dynamic and fast visualization of sequence alignments, variations and annotations.
]、NCBI MSA 查看器、SuiteMSA [
  • Anderson C.L.
  • Strope C.L.
  • Moriyama E.N.
SuiteMSA: visual tools for multiple sequence alignment comparison and molecular sequence simulation.
],用于显示和分析多个基因组序列(DNA、RNA、或蛋白质)。

 6.6 分类


分类学旨在根据共同特征和进化关系对生物体进行分类。分类系统以层次框架呈现,范围从更广泛的类别到更具体的类别。基因组分类数据库(GTDB;https://gtdb.ecogenomic.org)为原核生物提供最先进的基于基因组的分类法,该分类法在系统发育上是一致的,并且是等级标准化的 [
  • Parks D.H.
  • Chuvochina M.
  • Rinke C.
  • Mussig A.J.
  • Chaumeil P.-A.
  • Hugenholtz P.
GTDB: an ongoing census of bacterial and archaeal diversity through a phylogenetically consistent, rank normalized and complete genome-based taxonomy.
]。各种类型的图形表示用于可视化不同生物之间的进化关系(图 4)。有多种工具和算法可用于可视化分类连接[
  • Pavlopoulos G.A.
  • Soldatos T.G.
  • Barbosa-Silva A.
  • Schneider R.
A reference guide for tree analysis and visualization.
]。一些系统发育树可视化工具,例如 FigTree、iTOL [
  • Letunic I.
  • Bork P.
Interactive Tree Of Life (iTOL): an online tool for phylogenetic tree display and annotation.
  • Zhou T.
  • Xu K.
  • Zhao F.
  • Liu W.
  • Li L.
  • Hua Z.
  • et al.
itol.toolkit accelerates working with iTOL (Interactive Tree of Life) by an automated generation of annotation files.
]、MEGA [
  • Tamura K.
  • Stecher G.
  • Kumar S.
MEGA11: molecular evolutionary genetics analysis version 11.
] 和 Dendrscope [
  • Huson D.H.
  • Scornavacca C.
Dendroscope 3: an interactive tool for rooted phylogenetic trees and networks.
]设计有用户友好的界面并具有交互功能。这些工具提供了一系列定制选项,允许用户呈现、探索和修改系统发育树的外观。 VAMPS(微生物种群结构的可视化和分析)[
  • Huse S.M.
  • Mark Welch D.B.
  • Voorhis A.
  • Shipunova A.
  • Morrison H.G.
  • Eren A.M.
  • et al.
VAMPS: a website for visualization and analysis of microbial population structures.
]是一个存储库,可以提供可视化工具来比较不同数据集的分类分布。此外,Python 工具包如 ETE Toolkit(树探索环境)[
  • Huerta-Cepas J.
  • Serra F.
  • Bork P.
ETE 3: reconstruction, analysis, and visualization of phylogenomic data.
]、DendroPy [
  • Sukumaran J.
  • Holder M.T.
DendroPy: a Python library for phylogenetic computing.
] 和 Bio.Phylo [
  • Talevich E.
  • Invergo B.M.
  • Cock P.J.
  • Chapman B.A.
Bio.Phylo: A unified toolkit for processing, analyzing and visualizing phylogenetic trees in Biopython.
],全部开源,可用于系统发育树的分析和可视化。 R 软件包(例如 Phyloseq [
  • McMurdie P.J.
  • Holmes S.
phyloseq: An R package for reproducible interactive analysis and graphics of microbiome census data.
]、ampvis2 [
  • Andersen K.S.
  • Kirkegaard R.H.
  • Karst S.M.
  • Albertsen M.
ampvis2: an R package to analyse and visualise 16S rRNA amplicon data.
] 和 MetagenomeSeq [

Joseph Nathaniel Paulson HT. metagenomeSeq 2017. https://doi.org/10.18129/B9.BIOC.METAGENOMESEQ .

])使用各种统计技术来分析和可视化宏基因组数据。 除此之外,其他可视化工具,包括 Treemap、Krona [
  • Ondov B.D.
  • Bergman N.H.
  • Phillippy A.M.
Interactive metagenomic visualization in a Web browser.
] 和 BioSankey [
  • Platzer A.
  • Polzin J.
  • Rembart K.
  • Han P.P.
  • Rauer D.
  • Nussbaumer T.
BioSankey: Visualization of Microbial Communities Over Time.
] 提供分类数据的替代表示。 MEGA [
  • Tamura K.
  • Stecher G.
  • Kumar S.
MEGA11: molecular evolutionary genetics analysis version 11.
] 和 PAUP [

Wilgenbusch J.C., Swofford D. Inferring Evolutionary Trees with PAUP *. CP in Bioinformatics 2003;00. https://doi.org/10.1002/0471250953.bi0604s00 .

] 等软件工具专注于分子进化,可用于序列比对和系统发育树构建。 PhyD3 [
  • Kreft Ł.
  • Botzki A.
  • Coppens F.
  • Vandepoele K.
  • Van Bel M.
PhyD3: a phylogenetic tree viewer with extended phyloXML support for functional genomics data visualization.
] 也用于 DNA 和氨基酸序列比对。 Anvi'o [
  • Eren A.M.
  • Esen Ö.C.
  • Quince C.
  • Vineis J.H.
  • Morrison H.G.
  • Sogin M.L.
  • et al.
Anvi’o: an advanced analysis and visualization platform for ‘omics data.
] 提供了微生物群落内分类关系可视化的工具。
Fig. 4

图 4(A) 旭日图(克朗)显示分类。 (B) 桑基图分类法 (Pavian)。 (C) iTOL 可视化的生命之树。 (D) 分类法可视化为气泡图。 (E) 分类法可视化为树形图。 (F) 使用 Jasper/微生物组图可视化的希尔伯特曲线进行分类排序。上面的所有绘图都是使用每个工具提供的示例数据创建的。


6.7 网络和协会


利用宏基因组学领域的网络为了解群落内微生物之间复杂的相互作用提供了宝贵的见解。例如,分类网络通过采用分类学分类来帮助理解不同微生物类群之间的关系。这些网络中的节点代表分类单位,而边缘则表示相似或共现的程度。功能网络能够探索基于功能注释构建的微生物基因或通路之间的关系。共现网络说明了各种微生物物种或功能基因之间的共存模式,揭示了潜在的共生或拮抗关系。生态网络用于分析群落动态、识别关键物种、评估网络稳定性并衡量环境因素对微生物相互作用的影响。系统发育网络显示微生物物种之间的进化关系,揭示模式并帮助识别具有共享功能的密切相关的分类单元。宿主-微生物网络代表宿主生物体与栖息在不同身体部位的微生物群落之间复杂的相互作用和关系。例如,人类很容易受到大量微生物的侵害,包括细菌、病毒、真菌和其他微生物。另外,疾病关联网络在调查微生物群落与宿主健康之间的相关性方面发挥着作用。与前一类别类似,这些网络的构建涵盖了宿主-微生物和微生物-微生物之间的相互作用,为微生物组在健康和疾病中的作用提供了相关的见解。 最后,微生物组流行病学网络表示种群内微生物之间的相互关联,重点关注微生物群落的流行病学维度。这种形式的网络分析需要检查影响人群中微生物流行的扩散、传播和因素。

为此,网络可视化,无论是单独还是组合,都可以有助于结论的提取。例如,检查时间和空间动态可以说明微生物网络如何随时间或在不同空间位置演变,从而提供对微生物群落内时间和空间变化的见解。此外,网络可以实现功能预测。利用基于网络的方法有助于根据网络中邻近基因的功能预测基因功能,这在功能注释不完整的情况下特别有用。

所有上述关系都可以以网络的形式捕获和查看 [
  • Koutrouli M.
  • Karatzas E.
  • Paez-Espino D.
  • Pavlopoulos G.A.
A guide to conquer the biological network era using graph theory.
,
  • Pavlopoulos G.A.
  • Wegener A.-L.
  • Schneider R.
A survey of visualization tools for biological network analysis.
,
  • Pavlopoulos G.A.
  • Kontou P.I.
  • Pavlopoulou A.
  • Bouyioukos C.
  • Markou E.
  • Bagos P.G.
Bipartite graphs in systems biology and medicine: a survey of methods and applications.
,
  • N. Moschopoulos C.
  • A. Pavlopoulos G.
  • Likothanassis S.
  • Kossida S.
Analyzing protein-protein interaction networks with web tools.
,
  • Papanikolaou N.
  • Pavlopoulos G.A.
  • Theodosiou T.
  • Iliopoulos I.
Protein-protein interaction predictions using text mining methods.
]。网络可视化工具通常与主题无关,因为它们的功能是通用的,并且生成的网络的科学领域仅取决于输入数据的类型。生物信息学中广泛使用的网络可视化软件包括 Cytoscape [
  • Saito R.
  • Smoot M.E.
  • Ono K.
  • Ruscheinski J.
  • Wang P.-L.
  • Lotia S.
  • et al.
A travel guide to Cytoscape plugins.
  • Shannon P.
  • Markiel A.
  • Ozier O.
  • Baliga N.S.
  • Wang J.T.
  • Ramage D.
  • et al.
Cytoscape: a software environment for integrated models of biomolecular interaction networks.
]、Graphia、Gephi [

Bastian M., Heymann S., Jacomy M. Gephi: An Open Source Software for Exploring and Manipulating Networks 2009. https://doi.org/10.13140/2.1.1341.1520 .

] 和 Pajek [
  • Mrvar A.
  • Batagelj V.
Analysis and visualization of large networks with program package Pajek.
]。但是,对于特定场景,可以使用专用的网络可视化工具。例如,Arena3D web [
  • Karatzas E.
  • Baltoumas F.A.
  • Panayiotou N.A.
  • Schneider R.
  • Pavlopoulos G.A.
Arena3Dweb: interactive 3D visualization of multilayered networks.
  • Kokoli M.
  • Karatzas E.
  • Baltoumas F.A.
  • Schneider R.
  • Pafilis E.
  • Paragkamian S.
  • et al.
Arena3Dweb: interactive 3D visualization of multilayered networks supporting multiple directional information channels, clustering analysis and application integration.
  • Pavlopoulos G.A.
  • O’Donoghue S.I.
  • Satagopam V.P.
  • Soldatos T.G.
  • Pafilis E.
  • Schneider R.
Arena3D: visualization of biological networks in 3D.
] 促进 3D 空间中的交互式、多层可视化,以揭示有趣的数据模式。它允许网络伪对齐,并且擅长有效地可视化异构信息,采用多层概念,该概念对于时间序列分析特别有效。另一个专用工具是 NORMA [
  • Koutrouli M.
  • Karatzas E.
  • Papanikolopoulou K.
  • Pavlopoulos G.A.
NORMA: the network makeup artist — a web tool for network annotation visualization.
  • Karatzas E.
  • Koutrouli M.
  • Baltoumas F.A.
  • Papanikolopoulou K.
  • Bouyioukos C.
  • Pavlopoulos G.A.
The network makeup artist (NORMA-2.0): distinguishing annotated groups in a network using innovative layout strategies.
],它可以突出显示节点社区上的注释,并支持基于用户定义的注释组的布局。在宏基因组学的背景下,这些节点可能代表细菌种类,而重叠的注释可以指示病理功能、代谢途径、抗生素耐药性或共生关系。

图 5a-c 中展示了几个涉及使用网络可视化来描述宏基因组数据集的示例,这些示例是使用从 NMPFamsDB 数据库获取的数据创建的。图 5a 展示了使用 Gephi 渲染的所有可用新型宏基因组蛋白家族 (NMPF) 在八种主要生物群落类型(淡水、海洋、土壤、植物、人类、哺乳动物、其他宿主相关和工程环境)中分布的网络可视化。生物群落由中央彩色节点(集线器)表示,而灰色外围节点表示 NMPF,边缘表示 NMPF-生物群落关联。通过这种表示,可以可视化出现在多个生物群落中的 NMPF,以及仅限于特定生物群落的 NMPF。图 5b 显示了使用 Arena3D web 创建的三维 (3D) 多层网络,其中包含与四个主要人类微生物组系统(皮肤、呼吸、消化和生殖系统)连接的所有 NMPF。此外,每个 NMPF 都注释有其源微生物组样本(宏基因组或元转录组)的性质,以及是否具有预测的蛋白质结构模型。该信息被组织为多个层。蛋白质家族本身在中心层中描绘,节点对应于 NMPF,层内边缘描绘了同一宏基因组样本中 NMPF 的共存。层间边将每个 NMPF 与其相应的注释连接起来,包括与特定生物群落的关联、源数据集的性质以及 3D 蛋白质模型的可用性。最后,图 5c 显示了来自 NMPFamsDB 的新型宏基因组蛋白家族 (F006270) 的基因邻域的网络表示,使用 NORMA 渲染。 该家族的邻近区域由与已知 Pfam 结构域(例如 p450)命中的蛋白质和/或与 COG 功能(例如“防御机制”或“代谢物生物合成”)相关的蛋白质组成。通过这些关联,可以推断蛋白质家族中未注释基因的潜在功能。总的来说,这些例子展示了网络在宏基因组数据和元数据的可视化、分析和注释方面提供先进方法的能力。
Fig. 5

图 5(A-C) 从 NMPFamsDB 检索数据的各种网络可视化方案。 (A) 使用 Gephi 渲染的跨不同生物群落的 NMPF 分布的 2D 网络可视化。 (B) 使用 Arena3D web 创建与 4 个人类微生物组相关的 NMPF 的 3D 多层网络可视化以及附加注释(样本类型和 3D 模型的可用性)。 (C) 描述新型宏基因组蛋白家族 (F006270) 的基因邻域的基因共现网络,使用 NMPFamsDB 的数据构建并使用 NORMA 渲染。 F006270邻近基因的功能注释以彩色组的形式呈现。 (D) 通过同线性保守分析对多个 MAG 进行基因邻域可视化,使用 GeCoViz 和 FESnov 目录进行渲染。 (E) 使用 GOLD 分类系统对宏基因组生态系统进行树可视化。括号中给出了与每个生态系统相关的宏基因组数据集的数量。 (F) 使用 NextStrain 绘制的直方图形式的不同 SARS-Cov-2 毒株的时间进展。 (G-H) 使用 NextStrain 渲染的欧洲地理分布 (G) 和 COVID-19 的全球传播模式 (H) 的地图可视化。


6.8 基因邻域和同线性保守分析


在原核基因组中,功能相关的基因往往被分组,共享共同的调控机制并形成保守的基因邻域。对这些邻域的研究通常以同线性保守分析的形式进行,其中比较多个基因组,或者在宏基因组学的情况下,比较多个宏基因组支架,以研究一个或多个研究基因周围是否存在共同的坐标模式。基因组同线性是指不同物种染色体中基因和其他基因组元件的相对顺序的保守性,通常用于研究物种之间的进化关系并识别直系同源基因,即不同物种中从共同祖先进化而来的基因基因。识别不同支架之间的共同基因背景可用于对以前未知的宏基因组序列进行功能注释(例如,NMPFamsDB [
  • Baltoumas F.A.
  • Karatzas E.
  • Liu S.
  • Ovchinnikov S.
  • Sofianatos Y.
  • Chen I.-M.
  • et al.
NMPFamsDB: a database of novel protein families from microbial metagenomes and metatranscriptomes.
  • Pavlopoulos G.A.
  • Baltoumas F.A.
  • Liu S.
  • Selvitopi O.
  • Camargo A.P.
  • Nayfach S.
  • et al.
Unraveling the functional dark matter through global metagenomics.
]、FESnov 目录 [
  • Rodríguez Del Río Á.
  • Giner-Lamia J.
  • Cantalapiedra C.P.
  • Botas J.
  • Deng Z.
  • Hernández-Plaza A.
  • et al.
Functional and evolutionary significance of unknown genes from uncultivated taxa.
] ),预测蛋白质-蛋白质相互作用,或发现新的功能作用。同线性保守可以通过多种方式进行探索,从简单的 MSA 到全基因组比对可视化,最值得注意的是通过使用同线性浏览器。后者是专门为多个基因组/支架的比较分析而设计的基因组浏览器,尽管 UCSC 等标准浏览器确实提供有限的同线性功能。示例包括 JAX synteny 浏览器 [
  • Kolishovski G.
  • Lamoureux A.
  • Hale P.
  • Richardson J.E.
  • Recla J.M.
  • Adesanya O.
  • et al.
The JAX Synteny Browser for mouse-human comparative genomics.
]、ALLMAPS [
  • Tang H.
  • Zhang X.
  • Miao C.
  • Zhang J.
  • Ming R.
  • Schnable J.C.
  • et al.
ALLMAPS: robust scaffold ordering based on multiple maps.
] 或 GeneSpy [
  • Garcia P.S.
  • Jauffrit F.
  • Grangeasse C.
  • Brochier-Armanet C.
GeneSpy, a user-friendly and flexible genomic context visualizer.
] 等独立工具以及 KEGG Synteny、WebFlaGs [
  • Saha C.K.
  • Sanches Pires R.
  • Brolin H.
  • Delannoy M.
  • Atkinson G.C.
FlaGs and webFlaGs: discovering novel biology through the analysis of gene neighbourhood conservation.
] 和 GeCoViz [
  • Botas J.
  • Rodríguez Del Río Á.
  • Giner-Lamia J.
  • Huerta-Cepas J.
GeCoViz: genomic context visualisation of prokaryotic genes from a functional and evolutionary perspective.
],包括面向宏基因组的工具,例如 FeGenie [
  • Garber A.I.
  • Nealson K.H.
  • Okamoto A.
  • McAllister S.M.
  • Chan C.S.
  • Barco R.A.
  • et al.
FeGenie: a comprehensive tool for the identification of iron genes and iron gene neighborhoods in genome and metagenome assemblies.
] 和 EFI 酶学工具 [
  • Zallot R.
  • Oberg N.
  • Gerlt J.A.
The EFI web resource for genomic enzymology tools: leveraging protein, genome, and metagenome databases to discover novel enzymes and metabolic pathways.
]。 可以通过使用基因共现网络对同线性保守进行补充分析。在这种方法中,基因邻域可以表示为交互网络,其中基因之间的边缘表示它们在多个基因组或支架中彼此的接近程度。通过注释邻近基因(例如,通过与 Pfam、KEGG 通路或 COG 功能关联),还可以推断未注释基因的潜在功能。能够提供此功能的著名工具包括通用网络查看器(例如 Cytoscape)或专用工具(例如 NORMA [
  • Koutrouli M.
  • Karatzas E.
  • Papanikolopoulou K.
  • Pavlopoulos G.A.
NORMA: the network makeup artist — a web tool for network annotation visualization.
  • Karatzas E.
  • Koutrouli M.
  • Baltoumas F.A.
  • Papanikolopoulou K.
  • Bouyioukos C.
  • Pavlopoulos G.A.
The network makeup artist (NORMA-2.0): distinguishing annotated groups in a network using innovative layout strategies.
])。通过关联网络和同线性浏览器进行基因邻域分析的示例如图 5c-d 所示。


6.9 生物群落分布/生态系统/地理分布


生物群落分布、生态系统和地理分布是相互关联的概念,在理解地球上生命的多样性以及生物体与其环境之间的复杂关系方面发挥着至关重要的作用。生物群落是指以独特的气候、植被和动物生命为特征的广阔地理区域。地球上生物群落的分布受到温度、降水和阳光等因素的影响。生物群落的例子包括热带雨林、沙漠、苔原和草原。每个生物群落都具有独特的生态特征,生物群落的全球分布对地球的生物多样性做出了重大贡献。生态系统是较小的、局部的生物体群落,与其物理环境相互作用。这些生态系统,从淡水池塘到珊瑚礁、森林或草原,其分布受到气候、地形、土壤成分和其他环境因素的影响。地理分布是指地球上生物体的空间排列,包括跨区域的发生和丰度模式。气候、地貌和人类活动等因素影响着生命形式的地理分布。了解地理分布对于研究生物多样性、生态模式以及环境变化对各种物种的影响至关重要。

生物群落分布、生态系统和地理分布通过复杂的生态动力学错综复杂地联系在一起。生物群落的特征决定了其所拥有的生态系统的类型,而物种的地理分布通常与其所栖息的特定生物群落和生态系统相关。环境变化,无论是自然的还是人为的,都会对这些相互联系产生深远的影响,随着时间的推移影响生物群落和生态系统的分布。

可视化生物群落分布、生态系统和地理分布有助于揭示地球生物多样性和生态动态的复杂性。通过先进的可视化技术,研究人员可以绘制生物群落的全球分布图,突出显示不同地理区域的独特气候、植被和动物生命特征(参见图 5f-h 中的 COVID-19 示例)。这些可视化不仅提供了对生物群落、生态系统和地理特征之间关系的全面理解,而且还可以作为向更广泛的受众传达复杂生态概念、培养环境意识和管理能力的强大工具。虽然可以使用第 4 节(可视化概念)中概述的方法来实现自定义生物群系可视化,但也可以在宏基因组资源中访问各种预构建的查看器。 IMG/M、MGnify 或 SPIRE 等数据库使用 GOLD 生态系统分类(图 5e),并为每个提交的数据集提供地理位置数据可视化。 GOLD 还提供了一个专门的浏览器,用于根据微生物组元数据探索生物群落的地理分布。 NMPFamsDB 提供每个 NMPF 的生态系统和地理分布的可视化。此外,该数据库还提供了用于生成自定义图(条形图、维恩图、Circos 图、颜色编码矩阵和翻转图)的专用工具,用于测量用户选择的 NMPF 的生态系统和系统发育分布,以及地理分布每个 NMPF。最后,微生物组地图资源使用 Jasper [
  • Valdes C.
  • Stebliankin V.
  • Ruiz-Perez D.
  • Park J.I.
  • Lee H.
  • Narasimhan G.
Microbiome maps: Hilbert curve visualizations of metagenomic profiles.
] 通过希尔伯特曲线可视化生态系统分布。

 7. 讨论


可视化工具是基因组学和宏基因组学中复杂生物数据分析和解释中不可或缺的资产。基因组学和宏基因组学研究见证了数据生成的指数级激增,需要强大的可视化工具来揭示这些数据集中编码的复杂性。虽然可视化技术的进步极大地增强了研究人员探索和解释生物数据的能力,但仍然存在一些挑战:

 7.1 传达复杂性


尽管取得了进步,可视化工具通常难以有效地传达基因组和宏基因组数据集固有的复杂性。例如,生态位内微生物群落动态的可视化可能会过度简化复杂的相互作用,从而导致对生态模式的潜在误解。


7.2 计算需求


某些可视化工具提出了巨大的计算要求,使得高性能计算资源的访问权限有限的研究人员无法使用它们。例如,采用复杂算法对基因组结构进行三维可视化的工具可能需要大量的计算能力,从而限制了它们在资源有限的环境中的实用性。

 7.3 兼容性问题


可视化工具、数据格式和操作系统之间的兼容性问题带来了巨大的挑战。例如,生物信息学管道和可视化平台之间的互操作性可能需要复杂的数据预处理步骤,从而引入潜在的错误并阻碍无缝数据分析工作流程。


7.4 可扩展性限制


当面对大规模基因组和宏基因组数据集时,可视化工具的可扩展性经常受到考验。例如,在分析包含不同微生物种群或广泛测序深度的数据集时,为可视化微生物群落多样性而设计的工具可能会表现出性能下降或计算时间增加。

 7.5 学习曲线


一些可视化工具需要陡峭的学习曲线,要求研究人员投入大量时间和精力来掌握其功能。


7.6 对未来技术的调整


随着可视化工具适应虚拟现实 (VR) 等未来技术,它们将经历一场变革性的演变。将 VR 功能集成到可视化工具中,有望彻底改变研究人员探索生物数据和与生物数据交互的方式。通过利用 VR 技术,可视化工具可以提供身临其境的交互式体验,超越传统 2D 可视化的局限性。例如,研究人员可以浏览基因组景观的三维表示,用手势操纵分子结构,或者在沉浸式虚拟环境中探索复杂的生物网络。此外,增强现实(AR)技术的出现为将虚拟数据可视化叠加到物理世界提供了令人兴奋的可能性,使研究人员能够将生物学见解无缝集成到他们的实验室实验或现场工作中。随着 VR 和 AR 技术的不断发展,可视化工具将在充分利用这些沉浸式技术的潜力来释放对生物系统复杂性的新见解并加速科学发现方面发挥关键作用。

尽管面临挑战,可视化工具的进步包括大量的前沿创新。这些进步涵盖了广泛的变革性功能,例如:


7.7 直观表示


现代可视化工具提供直观的表示,促进数据探索和解释。例如,Krona 等工具利用交互式旭日可视化来描述分类层次结构,使研究人员能够轻松辨别微生物群落组成。


7.8 交互特征和动态探索


交互功能的结合使得基因组和宏基因组数据的动态探索成为可能。著名的例子包括 Anvi'o,它允许用户交互式地可视化和注释宏基因组组件,从而促进对基因组背景的实时探索。

 7.9 数据集成


生物信息学可视化工具展示了先进的数据集成功能,彻底改变了研究人员合成不同组学数据集和揭示复杂生物现象的能力。这些工具有助于基因组学/宏基因组学、转录组学、/宏转录组学、蛋白质组学和代谢组学数据的无缝集成,从而实现生物系统的整体分析。


7.10 社区参与和持续发展


流行的可视化工具通常拥有活跃的用户社区,促进协作开发和持续改进。用于基因组分析的 Galaxy 和用于网络分析和可视化的 Cytoscape 是两个典型的例子。


7.11 定制灵活性


提供定制选项的工具使研究人员能够根据其特定的研究问题和偏好定制可视化效果。这方面的一个典型工具是 Circos,它能够创建高度可定制的圆形图来可视化基因组数据,使研究人员能够精确地突出感兴趣的基因组特征。

 7.12 再现性


基因组可视化工具通过提供透明且可复制的方法来可视化和分析基因组数据,在确保可重复性方面发挥着至关重要的作用。

总之,可视化工具是基因组学和宏基因组学研究不可或缺的资产,为复杂的生物现象提供了宝贵的见解。虽然最近的进步显着增强了可视化工具的实用性和可访问性,但仍然存在一些挑战,需要不断的创新和改进。通过应对这些挑战并利用新兴技术,研究人员可以充分利用可视化工具的潜力来加深我们对基因组和宏基因组景观复杂性的理解。

 作者贡献


所有作者都对各种工具进行了测试和基准测试。所有作者均已阅读并批准该手稿。

 资金


健康基金会;奥纳西斯基金会; ARISE 计划来自欧盟 Horizo​​n 2020 研究和创新计划,根据 Marie Skłodowska-Curie 赠款协议第 945405 号;美国能源部联合基因组研究所 (https://ror.org/04xm1d337),美国能源部科学用户设施办公室,由美国能源部科学办公室支持,根据合同号 DE-AC02–05CH11231 运营;来自宾夕法尼亚州立大学医学院的启动资金以及来自宾夕法尼亚州立大学哈克生命科学研究所的哈克创新和转型种子基金 (HITS) 奖;希腊研究与创新基金会 (H.F.R.I),名为“希腊 2.0 - 基础研究融资行动(所有科学的横向支持),子行动 II”,拨款 ID:16718-PRPFOR; “希腊 2.0 - 国家恢复和复原力计划”,拨款 ID:TAEDR-0539180。


CRediT 作者贡献声明


Maria Chasapi:数据管理、形式分析、调查、资源、可视化、写作 - 初稿、写作 - 评论和编辑。 Nikolaos Vergoulidis:数据管理、形式分析、调查、验证、可视化、写作 - 初稿、写作 - 审查和编辑。玛丽亚·科科利:调查。 Nefeli K Venetsianou:调查。 Evangelos Karatzas:调查、方法论、验证、可视化、写作 - 初稿、写作 - 评论和编辑。 Ioannis Iliopoulos:调查、项目管理、可视化、写作 - 初稿、写作 - 审查和编辑。 Nikos C Kyrpides:资金收购、监督、写作 - 初稿、写作 - 审查和编辑。 Evangelos Pafilis:数据管理、调查、方法论、写作审查和编辑。 Fotis A Baltoumas:概念化、数据管理、形式分析、调查、方法论、项目管理、监督、验证、可视化、写作 - 初稿、写作 - 审查和编辑。 Georgios A Pavlopoulos:概念化、调查、监督、可视化、写作 - 初稿、写作 - 评论和编辑。 Eleni Panagiotopoulou:调查、写作、评论和编辑。 Eleni Aplakidou:数据管理、形式分析、调查、方法论、项目管理、资源、监督、可视化、写作 - 初稿、写作 - 审查和编辑。 Ilias Georgakopoulos-Soares:调查、写作——评论和编辑。


竞争利益声明


作者声明,他们没有已知的可能影响本文报告工作的相互竞争的经济利益或个人关系。

 参考

    •  特恩鲍 P.J.
    •   戈登·J.I.

    宏基因组学和代谢组学联姻的邀请。
     细胞。 2008年; 134:708-713
    https://doi.org/10.1016/j.cell.2008.08.025IF:64.5 第一季度
    •  拉普奥利·R.
    •   年轻的P。
    •   罗恩·E。
    •   佩切塔·S。
    •   披萨M。

    拯救微生物就是拯救地球。呼吁国际微生物学会联盟 (IUMS) 采取行动。

    一种健康展望。 2023; 5:5

    https://doi.org/10.1186/s42522-023-00077-2IF:4.9
    •  斯蒂恩·AD
    •   Crits-克里斯托夫 A.
    •   卡里尼·P。
    •   德安吉利斯 K.M.
    •   费雷尔·N.
    •   劳埃德 K.G.
    •   等人。

    大多数生物群落中很大比例的细菌和古细菌仍未培养。

    ISME J.2019; 13:3126-3130

    https://doi.org/10.1038/s41396-019-0484-yIF:11.0 第一季度
    •  韦德·W.

    不可培养的细菌——引起口腔感染的未知生物体。
     JRSM。 2002年; 95:81-83
    https://doi.org/10.1258/jrsm.95.2.81IF:17.3 第一季度
    • Kho Z.Y.
    • Lal S.K.
    The human gut microbiome – a potential controller of wellness and disease.
    Front Microbiol. 2018; 9: 1835https://doi.org/10.3389/fmicb.2018.01835 IF: 5.2 Q2
    • Di Carlo P.
    • Serra N.
    • Alduina R.
    • Guarino R.
    • Craxì A.
    • Giammanco A.
    • et al.
    A systematic review on omics data (metagenomics, metatranscriptomics, and metabolomics) in the role of microbiome in gallbladder disease.
    Front Physiol. 2022; 13888233https://doi.org/10.3389/fphys.2022.888233 IF: 4.0 Q2
    • Aguiar-Pulido V.
    • Huang W.
    • Suarez-Ulloa V.
    • Cickovski T.
    • Mathee K.
    • Narasimhan G.
    Metagenomics, metatranscriptomics, and metabolomics approaches for microbiome analysis: supplementary issue: bioinformatics methods and applications for big metagenomics data.
    Evol Bioinform Online. 2016; 12s1EBO.S36436https://doi.org/10.4137/EBO.S36436 IF: 2.6 Q2
    • Nam N.
    • Do H.
    • Loan Trinh K.
    • Lee N.
    Metagenomics: an effective approach for exploring microbial diversity and functions.
    Foods. 2023; 12: 2140https://doi.org/10.3390/foods12112140 IF: 5.2 Q1
    • Simon C.
    • Daniel R.
    Metagenomic analyses: past and future trends.
    Appl Environ Microbiol. 2011; 77: 1153-1161https://doi.org/10.1128/AEM.02345-10 IF: 4.4 Q2
    • Chistoserdova L.
    Recent progress and new challenges in metagenomics for biotechnology.
    Biotechnol Lett. 2010; 32: 1351-1359https://doi.org/10.1007/s10529-010-0306-9 IF: 2.7 Q3
    • Navgire G.S.
    • Goel N.
    • Sawhney G.
    • Sharma M.
    • Kaushik P.
    • Mohanta Y.K.
    • et al.
    Analysis and Interpretation of metagenomics data: an approach.
    Biol Proced Online. 2022; 24: 18https://doi.org/10.1186/s12575-022-00179-7 IF: 6.4 Q1
    • Shakya M.
    • Lo C.-C.
    • Chain P.S.G.
    Advances and challenges in metatranscriptomic analysis.
    Front Genet. 2019; 10: 904https://doi.org/10.3389/fgene.2019.00904 IF: 3.7 Q2
    • Zhang
    • Thompson Y.
    • Branck K.N.
    • Yan Yan T.
    • Nguyen L.H.
    • Franzosa E.A.
    • et al.
    Metatranscriptomics for the human microbiome and microbial community functional profiling.
    Annu Rev Biomed Data Sci. 2021; 4: 279-311https://doi.org/10.1146/annurev-biodatasci-031121-103035 IF: 6.0
    • Bashiardes S.
    • Zilberman-Schapira G.
    • Elinav E.
    Use of metatranscriptomics in microbiome research.
    Bioinform Biol Insights. 2016; 10BBI.S34610https://doi.org/10.4137/BBI.S34610 IF: 5.8
    • Haft D.H.
    • Badretdin A.
    • Coulouris G.
    • DiCuccio M.
    • Durkin A.S.
    • Jovenitti E.
    • et al.
    RefSeq and the prokaryotic genome annotation pipeline in the age of metagenomes.
    Nucleic Acids Res. 2024; 52: D762-D769https://doi.org/10.1093/nar/gkad988 IF: 14.9 Q1
    • UniProt Consortium
    UniProt: the universal protein knowledgebase in 2021.
    Nucleic Acids Res. 2021; 49: D480-D489https://doi.org/10.1093/nar/gkaa1100 IF: 14.9 Q1
    • Dudhagara P.
    • Bhavsar S.
    • Bhagat C.
    • Ghelani A.
    • Bhatt S.
    • Patel R.
    Web resources for metagenomics studies.
    Genom, Proteom Bioinforma. 2015; 13: 296-303https://doi.org/10.1016/j.gpb.2015.10.003 IF: 9.5 Q1
    • Sayers E.W.
    • Cavanaugh M.
    • Clark K.
    • Pruitt K.D.
    • Schoch C.L.
    • Sherry S.T.
    • et al.
    GenBank.
    Nucleic Acids Res. 2022; 50: D161-D164https://doi.org/10.1093/nar/gkab1135 IF: 14.9 Q1
    • Tanizawa Y.
    • Fujisawa T.
    • Kodama Y.
    • Kosuge T.
    • Mashima J.
    • Tanjo T.
    • et al.
    DNA Data Bank of Japan (DDBJ) update report 2022.
    Nucleic Acids Res. 2023; 51: D101-D105https://doi.org/10.1093/nar/gkac1083 IF: 14.9 Q1
    • Cummins C.
    • Ahamed A.
    • Aslam R.
    • Burgin J.
    • Devraj R.
    • Edbali O.
    • et al.
    The European Nucleotide Archive in 2021.
    Nucleic Acids Res. 2022; 50: D106-D110https://doi.org/10.1093/nar/gkab1051 IF: 14.9 Q1
    • Kodama Y.
    • Shumway M.
    • Leinonen R.
    • on behalf of the International Nucleotide Sequence Database Collaboration
    The sequence read archive: explosive growth of sequencing data.
    Nucleic Acids Res. 2012; 40: D54-D56https://doi.org/10.1093/nar/gkr854 IF: 14.9 Q1
    • Mukherjee S.
    • Stamatis D.
    • Li C.T.
    • Ovchinnikova G.
    • Bertsch J.
    • Sundaramurthi J.C.
    • et al.
    Twenty-five years of Genomes OnLine Database (GOLD): data updates and new features in v.9.
    Nucleic Acids Res. 2022; (gkac974)https://doi.org/10.1093/nar/gkac974 IF: 14.9 Q1
    • Chen I.-M.A.
    • Chu K.
    • Palaniappan K.
    • Pillay M.
    • Ratner A.
    • Huang J.
    • et al.
    IMG/M v.5.0: an integrated data management and comparative analysis system for microbial genomes and microbiomes.
    Nucleic Acids Res. 2018; https://doi.org/10.1093/nar/gky901 IF: 14.9 Q1
    • Chen I.-M.A.
    • Chu K.
    • Palaniappan K.
    • Ratner A.
    • Huang J.
    • Huntemann M.
    • et al.
    The IMG/M data management and analysis system v.7: content updates and new features.
    Nucleic Acids Res. 2022; (gkac976)https://doi.org/10.1093/nar/gkac976 IF: 14.9 Q1
    • Mitchell A.L.
    • Almeida A.
    • Beracochea M.
    • Boland M.
    • Burgin J.
    • Cochrane G.
    • et al.
    MGnify: the microbiome analysis resource in 2020.
    Nucleic Acids Res. 2019; gkz1035https://doi.org/10.1093/nar/gkz1035 IF: 14.9 Q1
    • Schmidt T.S.B.
    • Fullam A.
    • Ferretti P.
    • Orakov A.
    • Maistrenko O.M.
    • Ruscheweyh H.-J.
    • et al.
    SPIRE: a searchable, planetary-scale microbiome REsource.
    Nucleic Acids Res. 2024; 52: D777-D783https://doi.org/10.1093/nar/gkad943 IF: 14.9 Q1
    • Meyer F.
    • Bagchi S.
    • Chaterji S.
    • Gerlach W.
    • Grama A.
    • Harrison T.
    • et al.
    MG-RAST version 4-lessons learned from a decade of low-budget ultra-high-throughput metagenome analysis.
    Brief Bioinform. 2019; 20: 1151-1159https://doi.org/10.1093/bib/bbx105 IF: 9.5 Q1
    • Clum A.
    • Huntemann M.
    • Bushnell B.
    • Foster B.
    • Foster B.
    • Roux S.
    • et al.
    DOE JGI metagenome workflow.
    mSystems. 2021; 6e00804-20https://doi.org/10.1128/mSystems.00804-20 IF: 6.4 Q1
    • Roux S.
    • Páez-Espino D.
    • Chen I.-M.A.
    • Palaniappan K.
    • Ratner A.
    • Chu K.
    • et al.
    IMG/VR v3: an integrated ecological and evolutionary framework for interrogating genomes of uncultivated viruses.
    Nucleic Acids Res. 2021; 49: D764-D775https://doi.org/10.1093/nar/gkaa946 IF: 14.9 Q1
    • Camargo A.P.
    • Nayfach S.
    • Chen I.-M.A.
    • Palaniappan K.
    • Ratner A.
    • Chu K.
    • et al.
    IMG/VR v4: an expanded database of uncultivated virus genomes within a framework of extensive functional, taxonomic, and ecological metadata.
    Nucleic Acids Res. 2022; (gkac1037)https://doi.org/10.1093/nar/gkac1037 IF: 14.9 Q1
    • Paez-Espino D.
    • Eloe-Fadrosh E.A.
    • Pavlopoulos G.A.
    • Thomas A.D.
    • Huntemann M.
    • Mikhailova N.
    • et al.
    Uncovering Earth’s virome.
    Nature. 2016; 536: 425-430https://doi.org/10.1038/nature19094 IF: 64.8 Q1
    • Paez-Espino D.
    • Chen I.-M.A.
    • Palaniappan K.
    • Ratner A.
    • Chu K.
    • Szeto E.
    • et al.
    IMG/VR: a database of cultured and uncultured DNA Viruses and retroviruses.
    Nucleic Acids Res. 2017; 45: D457-D465https://doi.org/10.1093/nar/gkw1030 IF: 14.9 Q1
    • Arkin A.P.
    • Cottingham R.W.
    • Henry C.S.
    • Harris N.L.
    • Stevens R.L.
    • Maslov S.
    • et al.
    KBase: The United States Department of Energy Systems Biology Knowledgebase.
    Nat Biotechnol. 2018; 36: 566-569https://doi.org/10.1038/nbt.4163 IF: 46.9 Q1
    • Baltoumas F.A.
    • Karatzas E.
    • Liu S.
    • Ovchinnikov S.
    • Sofianatos Y.
    • Chen I.-M.
    • et al.
    NMPFamsDB: a database of novel protein families from microbial metagenomes and metatranscriptomes.
    Nucleic Acids Res. 2024; 52: D502-D512https://doi.org/10.1093/nar/gkad800 IF: 14.9 Q1
    • Pavlopoulos G.A.
    • Baltoumas F.A.
    • Liu S.
    • Selvitopi O.
    • Camargo A.P.
    • Nayfach S.
    • et al.
    Unraveling the functional dark matter through global metagenomics.
    Nature. 2023; 622: 594-602https://doi.org/10.1038/s41586-023-06583-7 IF: 64.8 Q1
    • Baltoumas F.A.
    • Karatzas E.
    • Paez-Espino D.
    • Venetsianou N.K.
    • Aplakidou E.
    • Oulas A.
    • et al.
    Exploring microbial functional biodiversity at the protein family level-From metagenomic sequence reads to annotated protein clusters.
    Front Bioinform. 2023; 31157956https://doi.org/10.3389/fbinf.2023.1157956
    • Rodríguez Del Río Á.
    • Giner-Lamia J.
    • Cantalapiedra C.P.
    • Botas J.
    • Deng Z.
    • Hernández-Plaza A.
    • et al.
    Functional and evolutionary significance of unknown genes from uncultivated taxa.
    Nature. 2023; https://doi.org/10.1038/s41586-023-06955-z IF: 64.8 Q1
    • Paoli L.
    • Ruscheweyh H.-J.
    • Forneris C.C.
    • Hubrich F.
    • Kautsar S.
    • Bhushan A.
    • et al.
    Biosynthetic potential of the global ocean microbiome.
    Nature. 2022; 607: 111-118https://doi.org/10.1038/s41586-022-04862-3 IF: 64.8 Q1
    • Lloyd-Price J.
    • Mahurkar A.
    • Rahnavard G.
    • Crabtree J.
    • Orvis J.
    • Hall A.B.
    • et al.
    Strains, functions and dynamics in the expanded Human Microbiome Project.
    Nature. 2017; 550: 61-66https://doi.org/10.1038/nature23889 IF: 64.8 Q1
    • Corrêa F.B.
    • Saraiva J.P.
    • Stadler P.F.
    • da Rocha U.N.
    TerrestrialMetagenomeDB: a public repository of curated and standardized metadata for terrestrial metagenomes.
    Nucleic Acids Res. 2019; gkz994https://doi.org/10.1093/nar/gkz994 IF: 14.9 Q1
    • Nata’ala M.K.
    • Avila Santos A.P.
    • Coelho Kasmanas J.
    • Bartholomäus A.
    • Saraiva J.P.
    • Godinho Silva S.
    • et al.
    MarineMetagenomeDB: a public repository for curated and standardized metadata for marine metagenomes.
    Environ Micro. 2022; 17: 57https://doi.org/10.1186/s40793-022-00449-7 IF: 7.9 Q1
    • Kasmanas J.C.
    • Bartholomäus A.
    • Corrêa F.B.
    • Tal T.
    • Jehmlich N.
    • Herberth G.
    • et al.
    HumanMetagenomeDB: a public repository of curated and standardized metadata for human metagenomes.
    Nucleic Acids Res. 2021; 49: D743-D750https://doi.org/10.1093/nar/gkaa1031 IF: 14.9 Q1
    • Klemetsen T.
    • Raknes I.A.
    • Fu J.
    • Agafonov A.
    • Balasundaram S.V.
    • Tartari G.
    • et al.
    The MAR databases: development and implementation of databases specific for marine metagenomics.
    Nucleic Acids Res. 2018; 46: D692-D699https://doi.org/10.1093/nar/gkx1036 IF: 14.9 Q1
    • Sunagawa S.
    • Coelho L.P.
    • Chaffron S.
    • Kultima J.R.
    • Labadie K.
    • Salazar G.
    • et al.
    Structure and function of the global ocean microbiome.
    Science. 2015; 3481261359https://doi.org/10.1126/science.1261359 IF: 56.9 Q1
  1. The National Microbiome Data Collaborative Data Portal: an integrated multi-omics microbiome data resource.
    Nat. 2022; https://doi.org/10.1093/nar/gkab990 IF: 14.9 Q1
    • Oulas A.
    • Pavloudi C.
    • Polymenakou P.
    • Pavlopoulos G.A.
    • Papanikolaou N.
    • Kotoulas G.
    • et al.
    Metagenomics: tools and insights for analyzing next-generation sequencing data derived from biodiversity studies.
    Bioinform Biol Insights. 2015; 9: 75-88https://doi.org/10.4137/BBI.S12462 IF: 5.8
    • Dong X.
    • Strous M.
    An integrated pipeline for annotation and visualization of metagenomic contigs.
    Front Genet. 2019; 10: 999https://doi.org/10.3389/fgene.2019.00999 IF: 3.7 Q2
    • Seemann T.
    Prokka: rapid prokaryotic genome annotation.
    Bioinformatics. 2014; 30: 2068-2069https://doi.org/10.1093/bioinformatics/btu153 IF: 5.8 Q1
    • Zafeiropoulos H.
    • Beracochea M.
    • Ninidakis S.
    • Exter K.
    • Potirakis A.
    • De Moro G.
    • et al.
    metaGOflow: a workflow for the analysis of marine Genomic Observatories shotgun metagenomics data.
    Gigascience. 2022; 12 (giad078)https://doi.org/10.1093/gigascience/giad078 IF: 9.2 Q1
    • Zafeiropoulos H.
    • Viet H.Q.
    • Vasileiadou K.
    • Potirakis A.
    • Arvanitidis C.
    • Topalis P.
    • et al.
    PEMA: a flexible Pipeline for Environmental DNA Metabarcoding Analysis of the 16S/18S ribosomal RNA, ITS, and COI marker genes.
    Gigascience. 2020; 9giaa022https://doi.org/10.1093/gigascience/giaa022 IF: 9.2 Q1
    • Tatusova T.
    • DiCuccio M.
    • Badretdin A.
    • Chetvernin V.
    • Nawrocki E.P.
    • Zaslavsky L.
    • et al.
    NCBI prokaryotic genome annotation pipeline.
    Nucleic Acids Res. 2016; 44: 6614-6624https://doi.org/10.1093/nar/gkw569 IF: 14.9 Q1
    • Tanizawa Y.
    • Fujisawa T.
    • Nakamura Y.
    DFAST: a flexible prokaryotic genome annotation pipeline for faster genome publication.
    Bioinformatics. 2018; 34: 1037-1039https://doi.org/10.1093/bioinformatics/btx713 IF: 5.8 Q1
    • Krakau S.
    • Straub D.
    • Gourlé H.
    • Gabernet G.
    • Nahnsen S.
    nf-core/mag: a best-practice pipeline for metagenome hybrid assembly and binning.
    NAR Genom Bioinform. 2022; 4lqac007https://doi.org/10.1093/nargab/lqac007 IF: 4.6
    • Kalvari I.
    • Nawrocki E.P.
    • Ontiveros-Palacios N.
    • Argasinska J.
    • Lamkiewicz K.
    • Marz M.
    • et al.
    Rfam 14: expanded coverage of metagenomic, viral and microRNA families.
    Nucleic Acids Res. 2021; 49: D192-D200https://doi.org/10.1093/nar/gkaa1047 IF: 14.9 Q1
    • Nawrocki E.P.
    • Eddy S.R.
    Infernal 1.1: 100-fold faster RNA homology searches.
    Bioinformatics. 2013; 29: 2933-2935https://doi.org/10.1093/bioinformatics/btt509 IF: 5.8 Q1
    • Chan P.P.
    • Lin B.Y.
    • Mak A.J.
    • Lowe T.M.
    tRNAscan-SE 2.0: improved detection and functional classification of transfer RNA genes.
    Nucleic Acids Res. 2021; 49: 9077-9096https://doi.org/10.1093/nar/gkab688 IF: 14.9 Q1
    • Russel J.
    • Pinilla-Redondo R.
    • Mayo-Muñoz D.
    • Shah S.A.
    • Sørensen S.J.
    CRISPRCasTyper: An automated tool for the identification, annotation and classification of CRISPR-Cas loci.
    Bioinformatics. 2020; https://doi.org/10.1101/2020.05.15.097824
    • Bland C.
    • Ramsey T.L.
    • Sabree F.
    • Lowe M.
    • Brown K.
    • Kyrpides N.C.
    • et al.
    CRISPR recognition tool (CRT): a tool for automatic detection of clustered regularly interspaced palindromic repeats.
    BMC Bioinforma. 2007; 8: 209https://doi.org/10.1186/1471-2105-8-209 IF: 3.0 Q2
  2. Fast and accurate identification of plasmids and viruses in sequencing data using geNomad.
    Nat Biotechnol. 2023; https://doi.org/10.1038/s41587-023-01982-7 IF: 46.9 Q1
    • Hyatt D.
    • Chen G.-L.
    • Locascio P.F.
    • Land M.L.
    • Larimer F.W.
    • Hauser L.J.
    Prodigal: prokaryotic gene recognition and translation initiation site identification.
    BMC Bioinforma. 2010; 11: 119https://doi.org/10.1186/1471-2105-11-119 IF: 3.0 Q2
    • Borodovsky M.
    • Lomsadze A.
    Gene identification in prokaryotic genomes, phages, metagenomes, and EST sequences with GeneMarkS suite.
    Curr Protoc Microbiol. 2014; 32 (Unit 1E.7)https://doi.org/10.1002/9780471729259.mc01e07s32
    • Rho M.
    • Tang H.
    • Ye Y.
    FragGeneScan: predicting genes in short and error-prone reads.
    Nucleic Acids Res. 2010; 38e191https://doi.org/10.1093/nar/gkq747 IF: 14.9 Q1
    • Suzek B.E.
    • Wang Y.
    • Huang H.
    • McGarvey P.B.
    • Wu C.H.
    • UniProt Consortium
    UniRef clusters: a comprehensive and scalable alternative for improving sequence similarity searches.
    Bioinformatics. 2015; 31: 926-932https://doi.org/10.1093/bioinformatics/btu739 IF: 5.8 Q1
    • Mistry J.
    • Chuguransky S.
    • Williams L.
    • Qureshi M.
    • Salazar G.A.
    • Sonnhammer E.L.L.
    • et al.
    Pfam: The protein families database in 2021.
    Nucleic Acids Res. 2021; 49: D412-D419https://doi.org/10.1093/nar/gkaa913 IF: 14.9 Q1
    • Paysan-Lafosse T.
    • Blum M.
    • Chuguransky S.
    • Grego T.
    • Pinto B.L.
    • Salazar G.A.
    • et al.
    InterPro in 2022.
    Nucleic Acids Res. 2023; 51: D418-D427https://doi.org/10.1093/nar/gkac993 IF: 14.9 Q1
    • Altschul S.F.
    • Gish W.
    • Miller W.
    • Myers E.W.
    • Lipman D.J.
    Basic local alignment search tool.
    J Mol Biol. 1990; 215: 403-410https://doi.org/10.1016/S0022-2836(05)80360-2 IF: 5.6 Q1
    • Buchfink B.
    • Xie C.
    • Huson D.H.
    Fast and sensitive protein alignment using DIAMOND.
    Nat Methods. 2015; 12: 59-60https://doi.org/10.1038/nmeth.3176 IF: 48.0 Q1
    • Steinegger M.
    • Söding J.
    MMseqs2 enables sensitive protein sequence searching for the analysis of massive data sets.
    Nat Biotechnol. 2017; 35: 1026-1028https://doi.org/10.1038/nbt.3988 IF: 46.9 Q1
    • Potter S.C.
    • Luciani A.
    • Eddy S.R.
    • Park Y.
    • Lopez R.
    • Finn R.D.
    HMMER web server: 2018 update.
    Nucleic Acids Res. 2018; 46: W200-W204https://doi.org/10.1093/nar/gky448 IF: 14.9 Q1
    • Steinegger M.
    • Meier M.
    • Mirdita M.
    • Vöhringer H.
    • Haunsberger S.J.
    • Söding J.
    HH-suite3 for fast remote homology detection and deep protein annotation.
    BMC Bioinforma. 2019; 20: 473https://doi.org/10.1186/s12859-019-3019-7 IF: 3.0 Q2
    • Wood D.E.
    • Lu J.
    • Langmead B.
    Improved metagenomic analysis with Kraken 2.
    Genome Biol. 2019; 20: 257https://doi.org/10.1186/s13059-019-1891-0 IF: 12.3 Q1
    • Brady A.
    • Salzberg S.L.
    Phymm and PhymmBL: metagenomic phylogenetic classification with interpolated Markov models.
    Nat Methods. 2009; 6: 673-676https://doi.org/10.1038/nmeth.1358 IF: 48.0 Q1
    • Manghi P.
    • Blanco-Míguez A.
    • Manara S.
    • NabiNejad A.
    • Cumbo F.
    • Beghini F.
    • et al.
    MetaPhlAn 4 profiling of unknown species-level genome bins improves the characterization of diet-associated microbiome changes in mice.
    Cell Rep. 2023; 42112464https://doi.org/10.1016/j.celrep.2023.112464 IF: 8.8 Q1
    • Karatzas E.
    • Baltoumas F.A.
    • Aplakidou E.
    • Kontou P.I.
    • Stathopoulos P.
    • Stefanis L.
    • et al.
    Flame (v2.0): advanced integration and interpretation of functional enrichment results from multiple sources.
    Bioinformatics. 2023; 39btad490https://doi.org/10.1093/bioinformatics/btad490 IF: 5.8 Q1
    • Thanati F.
    • Karatzas E.
    • Baltoumas F.A.
    • Stravopodis D.J.
    • Eliopoulos A.G.
    • Pavlopoulos G.A.
    FLAME: a web tool for functional and literature enrichment analysis of multiple gene lists.
    Biol (Basel). 2021; 10: 665https://doi.org/10.3390/biology10070665 IF: 4.2 Q2
    • Lluch J.
    • Servant F.
    • Païssé S.
    • Valle C.
    • Valière S.
    • Kuchly C.
    • et al.
    The characterization of novel tissue microbiota using an optimized 16S metagenomic sequencing pipeline.
    PLoS ONE. 2015; 10e0142334https://doi.org/10.1371/journal.pone.0142334 IF: 3.7 Q2
    • Galanis A.
    • Vardakas P.
    • Reczko M.
    • Harokopos V.
    • Hatzis P.
    • Skoulakis E.M.C.
    • et al.
    Bee foraging preferences, microbiota and pathogens revealed by direct shotgun metagenomics of honey.
    Mol Ecol Resour. 2022; 22: 2506-2523https://doi.org/10.1111/1755-0998.13626 IF: 7.7 Q1
    • Baltoumas F.A.
    • Zafeiropoulou S.
    • Karatzas E.
    • Koutrouli M.
    • Thanati F.
    • Voutsadaki K.
    • et al.
    Biomolecule and bioentity interaction databases in systems biology: a comprehensive review.
    Biomolecules. 2021; 11: 1245https://doi.org/10.3390/biom11081245 IF: 5.5 Q1
    • Koutrouli M.
    • Karatzas E.
    • Paez-Espino D.
    • Pavlopoulos G.A.
    A guide to conquer the biological network era using graph theory.
    Front Bioeng Biotechnol. 2020; 8: 34https://doi.org/10.3389/fbioe.2020.00034 IF: 5.7 Q1
    • Heyer R.
    • Schallert K.
    • Siewert C.
    • Kohrs F.
    • Greve J.
    • Maus I.
    • et al.
    Metaproteome analysis reveals that syntrophy, competition, and phage-host interaction shape microbial communities in biogas plants.
    Microbiome. 2019; 7: 69https://doi.org/10.1186/s40168-019-0673-y IF: 15.5 Q1
    • Bremel R.D.
    • Homan E.J.
    Extensive T-Cell Epitope Repertoire Sharing among Human Proteome, Gastrointestinal Microbiome, and Pathogenic Bacteria: Implications for the Definition of Self.
    Front Immunol. 2015; 6https://doi.org/10.3389/fimmu.2015.00538 IF: 7.3 Q1
    • Zhu Q.
    • Mai U.
    • Pfeiffer W.
    • Janssen S.
    • Asnicar F.
    • Sanders J.G.
    • et al.
    Phylogenomics of 10,575 genomes reveals evolutionary proximity between domains Bacteria and Archaea.
    Nat Commun. 2019; 10: 5477https://doi.org/10.1038/s41467-019-13443-4 IF: 16.6 Q1
    • Otto E.
    • Culakova E.
    • Meng S.
    • Zhang Z.
    • Xu H.
    • Mohile S.
    • et al.
    Overview of Sankey flow diagrams: Focusing on symptom trajectories in older adults with advanced cancer.
    J Geriatr Oncol. 2022; 13: 742-746https://doi.org/10.1016/j.jgo.2021.12.017 IF: 3.0 Q3
    • Kennedy A.B.W.
    • Sankey H.R.
    The thermal efficiency of steam engines. report of the committee appointed to the council upon the subject of the definition of a standard or standards of thermal efficiency for steam engines: with an introductory note. (Including appendixes and plate at back of volume).
    Minutes Proc Inst Civ Eng. 1898; 134: 278-312https://doi.org/10.1680/imotp.1898.19100
    • Platzer A.
    • Polzin J.
    • Rembart K.
    • Han P.P.
    • Rauer D.
    • Nussbaumer T.
    BioSankey: Visualization of Microbial Communities Over Time.
    J Integr Bioinforma. 2018; 1520170063https://doi.org/10.1515/jib-2017-0063 IF: 1.9
    • Ghosh S.
    • Das A.P.
    Metagenomic insights into the microbial diversity in manganese-contaminated mine tailings and their role in biogeochemical cycling of manganese.
    Sci Rep. 2018; 8: 8257https://doi.org/10.1038/s41598-018-26311-w IF: 4.6 Q2
    • Krzywinski M.
    • Birol I.
    • Jones S.J.
    • Marra M.A.
    Hive plots--rational approach to visualizing networks.
    Brief Bioinforma. 2012; 13: 627-644https://doi.org/10.1093/bib/bbr069 IF: 9.5 Q1
    • Sweet M.
    • Burian A.
    • Fifer J.
    • Bulling M.
    • Elliott D.
    • Raymundo L.
    Compositional homogeneity in the pathobiome of a new, slow-spreading coral disease.
    Microbiome. 2019; 7: 139https://doi.org/10.1186/s40168-019-0759-6 IF: 15.5 Q1
    • Armstrong G.
    • Rahman G.
    • Martino C.
    • McDonald D.
    • Gonzalez A.
    • Mishne G.
    • et al.
    Applications and Comparison of Dimensionality Reduction Methods for Microbiome Data.
    Front Bioinform. 2022; 2821861https://doi.org/10.3389/fbinf.2022.821861
    • Nanga S.
    • Bawah A.T.
    • Acquaye B.A.
    • Billa M.-I.
    • Baeta F.D.
    • Odai N.A.
    • et al.
    Review of Dimension Reduction Methods.
    JDAIP. 2021; 09: 189-231https://doi.org/10.4236/jdaip.2021.93013
    • Ma Y.
    • Zhu L.
    A Review on Dimension Reduction.
    Int Stat Rev. 2013; 81: 134-150https://doi.org/10.1111/j.1751-5823.2012.00182.x IF: 2.0 Q2
    • Huang H.
    • Wang Y.
    • Rudin C.
    • Browne E.P.
    Towards a comprehensive evaluation of dimension reduction methods for transcriptomic data visualization.
    Commun Biol. 2022; 5: 719https://doi.org/10.1038/s42003-022-03628-x IF: 5.9 Q1
    • Becht E.
    • McInnes L.
    • Healy J.
    • Dutertre C.-A.
    • Kwok I.W.H.
    • Ng L.G.
    • et al.
    Dimensionality reduction for visualizing single-cell data using UMAP.
    Nat Biotechnol. 2018; https://doi.org/10.1038/nbt.4314 IF: 46.9 Q1
    • Velliangiri S.
    • Alagumuthukrishnan S.
    • Thankumar Joseph S.I.
    A Review of Dimensionality Reduction Techniques for Efficient Computation.
    Procedia Comput Sci. 2019; 165: 104-111https://doi.org/10.1016/j.procs.2020.01.079
    • Chari T.
    • Pachter L.
    The specious art of single-cell genomics.
    PLoS Comput Biol. 2023; 19e1011288https://doi.org/10.1371/journal.pcbi.1011288 IF: 4.3 Q1
    • Nie Y.
    • Zhao J.-Y.
    • Tang Y.-Q.
    • Guo P.
    • Yang Y.
    • Wu X.-L.
    • et al.
    Species Divergence vs. Functional Convergence Characterizes Crude Oil Microbial Community Assembly.
    Front Microbiol. 2016; 7https://doi.org/10.3389/fmicb.2016.01254 IF: 5.2 Q2
    • Tzaferis C.
    • Karatzas E.
    • Baltoumas F.A.
    • Pavlopoulos G.A.
    • Kollias G.
    • Konstantopoulos D.
    SCALA: A complete solution for multimodal analysis of single-cell Next Generation Sequencing data.
    Comput Struct Biotechnol J. 2023; 21: 5382-5393https://doi.org/10.1016/j.csbj.2023.10.032 IF: 6.0 Q1
    • Chakraborty J.
    • Palit K.
    • Das S.
    Metagenomic approaches to study the culture-independent bacterial diversity of a polluted environment—a case study on north-eastern coast of Bay of Bengal, India.
    Microbial Biodegradation and Bioremediation. Elsevier,, 2022: 81-107https://doi.org/10.1016/B978-0-323-85455-9.00014-X
    • Wang L.
    • Jin L.
    • Xue B.
    • Wang Z.
    • Peng Q.
    Characterizing the bacterial community across the gastrointestinal tract of goats: Composition and potential function.
    MicrobiologyOpen. 2019; 8e00820https://doi.org/10.1002/mbo3.820 IF: 3.4 Q2
    • Weiss S.
    • Xu Z.Z.
    • Peddada S.
    • Amir A.
    • Bittinger K.
    • Gonzalez A.
    • et al.
    Normalization and microbial differential abundance strategies depend upon data characteristics.
    Microbiome. 2017; 5: 27https://doi.org/10.1186/s40168-017-0237-y IF: 15.5 Q1
    • Krishnaswamy V.G.
    • Aishwarya S.
    • Kathawala T.M.
    Extrication of the microbial interactions of activated sludge used in the textile effluent treatment of anaerobic reactor through metagenomic profiling.
    Curr Microbiol. 2020; 77: 2496-2509https://doi.org/10.1007/s00284-020-02020-4 IF: 2.6 Q3
    • Pavlopoulos G.A.
    • Kumar P.
    • Sifrim A.
    • Sakai R.
    • Lin M.L.
    • Voet T.
    • et al.
    Meander: visually exploring the structural variome using space-filling curves.
    Nucleic Acids Res. 2013; 41 (e118–e118)https://doi.org/10.1093/nar/gkt254 IF: 14.9 Q1
    • Fukasawa Y.
    • Ermini L.
    • Wang H.
    • Carty K.
    • Cheung M.-S.
    LongQC: A Quality Control Tool for Third Generation Sequencing Long Read Data.
    G3 Genes|Genomes|Genet. 2020; 10: 1193-1196https://doi.org/10.1534/g3.119.400864 IF: 2.6 Q3
    • Lanfear R.
    • Schalamun M.
    • Kainer D.
    • Wang W.
    • Schwessinger B.
    MinIONQC: fast and simple quality control for MinION sequencing data.
    Bioinformatics. 2019; 35: 523-525https://doi.org/10.1093/bioinformatics/bty654 IF: 5.8 Q1
    • De Coster W.
    • D’Hert S.
    • Schultz D.T.
    • Cruts M.
    • Van Broeckhoven C.
    NanoPack: visualizing and processing long-read sequencing data.
    Bioinformatics. 2018; 34: 2666-2669https://doi.org/10.1093/bioinformatics/bty149 IF: 5.8 Q1
    • Chen Y.
    • Chen Y.
    • Shi C.
    • Huang Z.
    • Zhang Y.
    • Li S.
    • et al.
    SOAPnuke: a MapReduce acceleration-supported software for integrated quality control and preprocessing of high-throughput sequencing data.
    GigaScience. 2018; 7https://doi.org/10.1093/gigascience/gix120 IF: 9.2 Q1
    • Hufnagel D.E.
    • Hufford M.B.
    • Seetharam A.S.
    SequelTools: a suite of tools for working with PacBio Sequel raw sequence data.
    BMC Bioinforma. 2020; 21: 429https://doi.org/10.1186/s12859-020-03751-8 IF: 3.0 Q2
    • Nielsen C.B.
    • Jackman S.D.
    • Birol I.
    • Jones S.J.M.
    ABySS-Explorer: visualizing genome sequence assemblies.
    IEEE Trans Vis Comput Graph. 2009; 15: 881-888https://doi.org/10.1109/TVCG.2009.116 IF: 5.2 Q1
    • Mikheenko A.
    • Kolmogorov M.
    Assembly Graph Browser: interactive visualization of assembly graphs.
    Bioinformatics. 2019; 35: 3476-3478https://doi.org/10.1093/bioinformatics/btz072 IF: 5.8 Q1
    • Gonnella G.
    • Niehus N.
    • Kurtz S.
    GfaViz: flexible and interactive visualization of GFA sequence graphs.
    Bioinformatics. 2019; 35: 2853-2855https://doi.org/10.1093/bioinformatics/bty1046 IF: 5.8 Q1
    • Kunyavskaya O.
    • Prjibelski A.D.
    SGTK: a toolkit for visualization and assessment of scaffold graphs.
    Bioinformatics. 2019; 35: 2303-2305https://doi.org/10.1093/bioinformatics/bty956 IF: 5.8 Q1
    • Yuan Y.
    • Ma RK-K
    • Chan T.-F.
    PanGraphViewer: a versatile tool to visualize pangenome graphs.
    Bioinformatics. 2023; https://doi.org/10.1101/2023.03.30.534931
    • Pavia M.J.
    • Chede A.
    • Wu Z.
    • Cadillo-Quiroz H.
    • Zhu Q.
    BinaRena: a dedicated interactive platform for human-guided exploration and binning of metagenomes.
    Microbiome. 2023; 11: 186https://doi.org/10.1186/s40168-023-01625-8 IF: 15.5 Q1
    • Alneberg J.
    • Bjarnason B.S.
    • de Bruijn I.
    • Schirmer M.
    • Quick J.
    • Ijaz U.Z.
    • et al.
    CONCOCT: Clust cONtigs Cover Compos. 2013; https://doi.org/10.48550/ARXIV.1312.4038
    • Uritskiy G.V.
    • DiRuggiero J.
    • Taylor J.
    MetaWRAP—a flexible pipeline for genome-resolved metagenomic data analysis.
    Microbiome. 2018; 6: 158https://doi.org/10.1186/s40168-018-0541-1 IF: 15.5 Q1
    • Laczny C.C.
    • Sternal T.
    • Plugaru V.
    • Gawron P.
    • Atashpendar A.
    • Margossian H.H.
    • et al.
    VizBin - an application for reference-independent visualization and human-augmented binning of metagenomic data.
    Microbiome. 2015; 3https://doi.org/10.1186/s40168-014-0066-1 IF: 15.5 Q1
    • Eren A.M.
    • Kiefl E.
    • Shaiber A.
    • Veseli I.
    • Miller S.E.
    • Schechter M.S.
    • et al.
    Community-led, integrated, reproducible multi-omics with anvi’o.
    Nat Microbiol. 2020; 6: 3-6https://doi.org/10.1038/s41564-020-00834-3 IF: 28.3 Q1
    • Stothard P.
    • Grant J.R.
    • Van Domselaar G.
    Visualizing and comparing circular genomes using the CGView family of tools.
    Brief Bioinform. 2019; 20: 1576-1582https://doi.org/10.1093/bib/bbx081 IF: 9.5 Q1
    • Anastasiadi M.
    • Bragin E.
    • Biojoux P.
    • Ahamed A.
    • Burgin J.
    • De Castro Cogle K.
    • et al.
    CRAMER: a lightweight, highly customizable web-based genome browser supporting multiple visualization instances.
    Bioinformatics. 2020; 36: 3556-3557https://doi.org/10.1093/bioinformatics/btaa146 IF: 5.8 Q1
    • Cantor M.
    • Nordberg H.
    • Smirnova T.
    • Hess M.
    • Tringe S.
    • Dubchak I.
    Elviz – exploration of metagenome assemblies with an interactive visualization tool.
    BMC Bioinforma. 2015; 16: 130https://doi.org/10.1186/s12859-015-0566-4 IF: 3.0 Q2
    • Rangwala S.H.
    • Kuznetsov A.
    • Ananiev V.
    • Asztalos A.
    • Borodin E.
    • Evgeniev V.
    • et al.
    Accessing NCBI data using the NCBI Sequence Viewer and Genome Data Viewer (GDV).
    Genome Res. 2021; 31: 159-169https://doi.org/10.1101/gr.266932.120 IF: 7.0 Q1
    • LYi S.
    • Wang Q.
    • Lekschas F.
    • Gehlenborg N.
    Gosling: A Grammar-based Toolkit for Scalable and Interactive Genomics Data Visualization.
    IEEE Trans Vis Comput Graph. 2022; 28: 140-150https://doi.org/10.1109/TVCG.2021.3114876 IF: 5.2 Q1
    • Thorvaldsdottir H.
    • Robinson J.T.
    • Mesirov J.P.
    Integrative Genomics Viewer (IGV): high-performance genomics data visualization and exploration.
    Brief Bioinforma. 2013; 14: 178-192https://doi.org/10.1093/bib/bbs017 IF: 9.5 Q1
    • Buels R.
    • Yao E.
    • Diesh C.M.
    • Hayes R.D.
    • Munoz-Torres M.
    • Helt G.
    • et al.
    JBrowse: a dynamic web platform for genome visualization and analysis.
    Genome Biol. 2016; 17: 66https://doi.org/10.1186/s13059-016-0924-1 IF: 12.3 Q1
    • Milne I.
    • Bayer M.
    • Cardle L.
    • Shaw P.
    • Stephen G.
    • Wright F.
    • et al.
    Tablet—next generation sequence assembly visualization.
    Bioinformatics. 2010; 26: 401-402https://doi.org/10.1093/bioinformatics/btp666 IF: 5.8 Q1
    • Nassar L.R.
    • Barber G.P.
    • Benet-Pagès A.
    • Casper J.
    • Clawson H.
    • Diekhans M.
    • et al.
    The UCSC Genome Browser database: 2023 update.
    Nucleic Acids Res. 2023; 51: D1188-D1195https://doi.org/10.1093/nar/gkac1072 IF: 14.9 Q1
    • Cunningham F.
    • Allen J.E.
    • Allen J.
    • Alvarez-Jarreta J.
    • Amode M.R.
    • Armean I.M.
    • et al.
    Ensembl 2022.
    Nucleic Acids Res. 2022; 50: D988-D995https://doi.org/10.1093/nar/gkab1049 IF: 14.9 Q1
    • Carver T.
    • Harris S.R.
    • Berriman M.
    • Parkhill J.
    • McQuillan J.A.
    Artemis: an integrated platform for visualization and analysis of high-throughput sequence-based experimental data.
    Bioinformatics. 2012; 28: 464-469https://doi.org/10.1093/bioinformatics/btr703 IF: 5.8 Q1
    • Okonechnikov K.
    • Golosova O.
    • Fursov M.
    • the UGENE team
    Unipro UGENE: a unified bioinformatics toolkit.
    Bioinformatics. 2012; 28: 1166-1167https://doi.org/10.1093/bioinformatics/bts091 IF: 5.8 Q1
    • Kearse M.
    • Moir R.
    • Wilson A.
    • Stones-Havas S.
    • Cheung M.
    • Sturrock S.
    • et al.
    Geneious Basic: An integrated and extendable desktop software platform for the organization and analysis of sequence data.
    Bioinformatics. 2012; 28: 1647-1649https://doi.org/10.1093/bioinformatics/bts199 IF: 5.8 Q1
    • Olson R.D.
    • Assaf R.
    • Brettin T.
    • Conrad N.
    • Cucinell C.
    • Davis J.J.
    • et al.
    Introducing the bacterial and viral bioinformatics resource center (BV-BRC): a resource combining PATRIC, IRD and ViPR.
    Nucleic Acids Res. 2023; 51: D678-D689https://doi.org/10.1093/nar/gkac1003 IF: 14.9 Q1
    • Yachdav G.
    • Wilzbach S.
    • Rauscher B.
    • Sheridan R.
    • Sillitoe I.
    • Procter J.
    • et al.
    MSAViewer: interactive JavaScript visualization of multiple sequence alignments.
    Bioinformatics. 2016; 32: 3501-3503https://doi.org/10.1093/bioinformatics/btw474 IF: 5.8 Q1
    • Bayer M.
    • Milne I.
    • Stephen G.
    • Shaw P.
    • Cardle L.
    • Wright F.
    • et al.
    Comparative visualization of genetic and physical maps with Strudel.
    Bioinformatics. 2011; 27: 1307-1308https://doi.org/10.1093/bioinformatics/btr111 IF: 5.8 Q1
    • Anderson C.L.
    • Strope C.L.
    • Moriyama E.N.
    SuiteMSA: visual tools for multiple sequence alignment comparison and molecular sequence simulation.
    BMC Bioinforma. 2011; 12: 184https://doi.org/10.1186/1471-2105-12-184 IF: 3.0 Q2
    • Waterhouse A.M.
    • Procter J.B.
    • Martin D.M.A.
    • Clamp M.
    • Barton G.J.
    Jalview Version 2—a multiple sequence alignment editor and analysis workbench.
    Bioinformatics. 2009; 25: 1189-1191https://doi.org/10.1093/bioinformatics/btp033 IF: 5.8 Q1
    • Torun F.M.
    • Bilgin H.I.
    • Kaplan O.I.
    MSABrowser: dynamic and fast visualization of sequence alignments, variations and annotations.
    Bioinforma Adv. 2021; 1vbab009https://doi.org/10.1093/bioadv/vbab009
    • Gouy M.
    • Tannier E.
    • Comte N.
    • Parsons D.P.
    Seaview Version 5: A Multiplatform Software for Multiple Sequence Alignment, Molecular Phylogenetic Analyses, and Tree Reconciliation.
    (vol. 2231)in: Katoh K. Multiple Sequence Alignment. Springer US, New York, NY2021: 241-260https://doi.org/10.1007/978-1-0716-1036-7_15 (vol. 2231)
    • Durant É.
    • Sabot F.
    • Conte M.
    • Rouard M.
    Panache: a web browser-based viewer for linearized pangenomes.
    Bioinformatics. 2021; 37: 4556-4558https://doi.org/10.1093/bioinformatics/btab688 IF: 5.8 Q1
    • Hennig A.
    • Bernhardt J.
    • Nieselt K.
    Pan-Tetris: an interactive visualisation for Pan-genomes.
    BMC Bioinforma. 2015; 16S3https://doi.org/10.1186/1471-2105-16-S11-S3 IF: 3.0 Q2
    • Pedersen T.L.
    • Nookaew I.
    • Wayne Ussery D.
    • Månsson M.
    PanViz: interactive visualization of the structure of functionally annotated pangenomes.
    Bioinformatics. 2017; 33: 1081-1082https://doi.org/10.1093/bioinformatics/btw761 IF: 5.8 Q1
    • Ding W.
    • Baumdicker F.
    • Neher R.A.
    panX: pan-genome analysis and exploration.
    Nucleic Acids Res. 2018; 46 (e5–e5)https://doi.org/10.1093/nar/gkx977 IF: 14.9 Q1
    • Sheikhizadeh S.
    • Schranz M.E.
    • Akdel M.
    • De Ridder D.
    • Smit S.
    PanTools: representation, storage and exploration of pan-genomic data.
    Bioinformatics. 2016; 32: i487-i493https://doi.org/10.1093/bioinformatics/btw455 IF: 5.8 Q1
    • Holley G.
    • Melsted P.
    Bifrost: highly parallel construction and indexing of colored and compacted de Bruijn graphs.
    Genome Biol. 2020; 21: 249https://doi.org/10.1186/s13059-020-02135-8 IF: 12.3 Q1
    • Li H.
    • Feng X.
    • Chu C.
    The design and construction of reference pangenome graphs with minigraph.
    Genome Biol. 2020; 21: 265https://doi.org/10.1186/s13059-020-02168-z IF: 12.3 Q1
    • Minkin I.
    • Pham S.
    • Medvedev P.
    TwoPaCo: an efficient algorithm to build the compacted de Bruijn graph from many complete genomes.
    Bioinformatics. 2017; 33: 4024-4032https://doi.org/10.1093/bioinformatics/btw609 IF: 5.8 Q1
    • Hickey G.
    • Monlong J.
    • Ebler J.
    • Novak A.M.
    • Eizenga J.M.
    • Gao Y.
    • et al.
    Pangenome graph construction from genome alignments with Minigraph-Cactus.
    Nat Biotechnol. 2023; https://doi.org/10.1038/s41587-023-01793-w IF: 46.9 Q1
    • Valdes C.
    • Stebliankin V.
    • Ruiz-Perez D.
    • Park J.I.
    • Lee H.
    • Narasimhan G.
    Microbiome maps: Hilbert curve visualizations of metagenomic profiles.
    Front Bioinform. 2023; 31154588https://doi.org/10.3389/fbinf.2023.1154588
    • Estaki M.
    • Jiang L.
    • Bokulich N.A.
    • McDonald D.
    • González A.
    • Kosciolek T.
    • et al.
    QIIME 2 enables comprehensive end‐to‐end analysis of diverse microbiome data and comparative studies with publicly available data.
    CP Bioinforma. 2020; 70e100https://doi.org/10.1002/cpbi.100
    • McMurdie P.J.
    • Holmes S.
    phyloseq: An R package for reproducible interactive analysis and graphics of microbiome census data.
    PLoS ONE. 2013; 8e61217https://doi.org/10.1371/journal.pone.0061217 IF: 3.7 Q2
    • Dhariwal A.
    • Chong J.
    • Habib S.
    • King I.L.
    • Agellon L.B.
    • Xia J.
    MicrobiomeAnalyst: a web-based tool for comprehensive statistical, visual and meta-analysis of microbiome data.
    Nucleic Acids Res. 2017; 45: W180-W188https://doi.org/10.1093/nar/gkx295 IF: 14.9 Q1
  3. Joseph Nathaniel Paulson HT. metagenomeSeq 2017. https://doi.org/10.18129/B9.BIOC.METAGENOMESEQ .

    • Tamura K.
    • Stecher G.
    • Kumar S.
    MEGA11: molecular evolutionary genetics analysis version 11.
    Mol Biol Evol. 2021; 38: 3022-3027https://doi.org/10.1093/molbev/msab120 IF: 10.7 Q1
  4. Wilgenbusch J.C., Swofford D. Inferring Evolutionary Trees with PAUP *. CP in Bioinformatics 2003;00. https://doi.org/10.1002/0471250953.bi0604s00 .

    • Letunic I.
    • Bork P.
    Interactive Tree Of Life (iTOL): an online tool for phylogenetic tree display and annotation.
    Bioinformatics. 2007; 23: 127-128https://doi.org/10.1093/bioinformatics/btl529 IF: 5.8 Q1
    • Zhou T.
    • Xu K.
    • Zhao F.
    • Liu W.
    • Li L.
    • Hua Z.
    • et al.
    itol.toolkit accelerates working with iTOL (Interactive Tree of Life) by an automated generation of annotation files.
    Bioinformatics. 2023; 39btad339https://doi.org/10.1093/bioinformatics/btad339 IF: 5.8 Q1
    • Kreft Ł.
    • Botzki A.
    • Coppens F.
    • Vandepoele K.
    • Van Bel M.
    PhyD3: a phylogenetic tree viewer with extended phyloXML support for functional genomics data visualization.
    Bioinformatics. 2017; 33: 2946-2947https://doi.org/10.1093/bioinformatics/btx324 IF: 5.8 Q1
    • Huson D.H.
    • Scornavacca C.
    Dendroscope 3: an interactive tool for rooted phylogenetic trees and networks.
    Syst Biol. 2012; 61: 1061-1067https://doi.org/10.1093/sysbio/sys062 IF: 6.5 Q1
    • Saito R.
    • Smoot M.E.
    • Ono K.
    • Ruscheinski J.
    • Wang P.-L.
    • Lotia S.
    • et al.
    A travel guide to Cytoscape plugins.
    Nat Methods. 2012; 9: 1069-1076https://doi.org/10.1038/nmeth.2212 IF: 48.0 Q1
    • Shannon P.
    • Markiel A.
    • Ozier O.
    • Baliga N.S.
    • Wang J.T.
    • Ramage D.
    • et al.
    Cytoscape: a software environment for integrated models of biomolecular interaction networks.
    Genome Res. 2003; 13: 2498-2504https://doi.org/10.1101/gr.1239303 IF: 7.0 Q1
  5. Bastian M., Heymann S., Jacomy M. Gephi: An Open Source Software for Exploring and Manipulating Networks 2009. https://doi.org/10.13140/2.1.1341.1520 .

    • Mrvar A.
    • Batagelj V.
    Analysis and visualization of large networks with program package Pajek.
    Complex Adapt Syst Model. 2016; 4https://doi.org/10.1186/s40294-016-0017-8
    • Karatzas E.
    • Baltoumas F.A.
    • Panayiotou N.A.
    • Schneider R.
    • Pavlopoulos G.A.
    Arena3Dweb: interactive 3D visualization of multilayered networks.
    Nucleic Acids Res. 2021; https://doi.org/10.1093/nar/gkab278 IF: 14.9 Q1
    • Kokoli M.
    • Karatzas E.
    • Baltoumas F.A.
    • Schneider R.
    • Pafilis E.
    • Paragkamian S.
    • et al.
    Arena3Dweb: interactive 3D visualization of multilayered networks supporting multiple directional information channels, clustering analysis and application integration.
    NAR Genom Bioinforma. 2023; 5lqad053https://doi.org/10.1093/nargab/lqad053 IF: 4.6
    • Koutrouli M.
    • Karatzas E.
    • Papanikolopoulou K.
    • Pavlopoulos G.A.
    NORMA: the network makeup artist — a web tool for network annotation visualization.
    Genom, Proteom Bioinforma. 2022; 20: 578-586https://doi.org/10.1016/j.gpb.2021.02.005 IF: 9.5 Q1
    • Karatzas E.
    • Koutrouli M.
    • Baltoumas F.A.
    • Papanikolopoulou K.
    • Bouyioukos C.
    • Pavlopoulos G.A.
    The network makeup artist (NORMA-2.0): distinguishing annotated groups in a network using innovative layout strategies.
    Bioinforma Adv. 2022; 2vbac036https://doi.org/10.1093/bioadv/vbac036
    • Yang C.
    • Chowdhury D.
    • Zhang Z.
    • Cheung W.K.
    • Lu A.
    • Bian Z.
    • et al.
    A review of computational tools for generating metagenome-assembled genomes from metagenomic sequencing data.
    Comput Struct Biotechnol J. 2021; 19: 6301-6314https://doi.org/10.1016/j.csbj.2021.11.028 IF: 6.0 Q1
    • Gupta S.K.
    • Raza S.
    • Unno T.
    Comparison of de-novo assembly tools for plasmid metagenome analysis.
    Genes Genom. 2019; 41: 1077-1083https://doi.org/10.1007/s13258-019-00839-1 IF: 2.1 Q3
    • Lapidus A.L.
    • Korobeynikov A.I.
    Metagenomic data assembly – the way of decoding unknown microorganisms.
    Front Microbiol. 2021; 12613791https://doi.org/10.3389/fmicb.2021.613791 IF: 5.2 Q2
    • Vollmers J.
    • Wiegand S.
    • Kaster A.-K.
    Comparing and evaluating metagenome assembly tools from a microbiologist’s perspective - not only size matters!.
    PLoS ONE. 2017; 12e0169662https://doi.org/10.1371/journal.pone.0169662 IF: 3.7 Q2
    • Breitwieser F.P.
    • Lu J.
    • Salzberg S.L.
    A review of methods and databases for metagenomic classification and assembly.
    Brief Bioinforma. 2019; 20: 1125-1136https://doi.org/10.1093/bib/bbx120 IF: 9.5 Q1
    • Haider B.
    • Ahn T.-H.
    • Bushnell B.
    • Chai J.
    • Copeland A.
    • Pan C.
    Omega: an Overlap-graph de novo assembler for metagenomics.
    Bioinformatics. 2014; 30: 2717-2722https://doi.org/10.1093/bioinformatics/btu395 IF: 5.8 Q1
    • Zerbino D.R.
    Using the Velvet de novo assembler for short‐read sequencing technologies.
    CP Bioinforma. 2010; 31https://doi.org/10.1002/0471250953.bi1105s31
    • Namiki T.
    • Hachiya T.
    • Tanaka H.
    • Sakakibara Y.
    MetaVelvet: an extension of Velvet assembler to de novo metagenome assembly from short sequence reads.
    Nucleic Acids Res. 2012; 40 (e155–e155.)https://doi.org/10.1093/nar/gks678 IF: 14.9 Q1
    • Li D.
    • Liu C.-M.
    • Luo R.
    • Sadakane K.
    • Lam T.-W.
    MEGAHIT: an ultra-fast single-node solution for large and complex metagenomics assembly via succinct de Bruijn graph.
    Bioinformatics. 2015; 31: 1674-1676https://doi.org/10.1093/bioinformatics/btv033 IF: 5.8 Q1
    • Chikhi R.
    • Limasset A.
    • Medvedev P.
    Compacting de Bruijn graphs from sequencing data quickly and in low memory.
    Bioinformatics. 2016; 32: i201-i208https://doi.org/10.1093/bioinformatics/btw279 IF: 5.8 Q1
    • Nurk S.
    • Meleshko D.
    • Korobeynikov A.
    • Pevzner P.A.
    metaSPAdes: a new versatile metagenomic assembler.
    Genome Res. 2017; 27: 824-834https://doi.org/10.1101/gr.213959.116 IF: 7.0 Q1
    • Ghurye J.
    • Treangen T.
    • Fedarko M.
    • Hervey W.J.
    • Pop M.
    MetaCarvel: linking assembly graph motifs to biological variants.
    Genome Biol. 2019; 20: 174https://doi.org/10.1186/s13059-019-1791-3 IF: 12.3 Q1
    • Wick R.R.
    • Schultz M.B.
    • Zobel J.
    • Holt K.E.
    Bandage: interactive visualization of de novo genome assemblies.
    Bioinformatics. 2015; 31: 3350-3352https://doi.org/10.1093/bioinformatics/btv383 IF: 5.8 Q1
    • Yue Y.
    • Huang H.
    • Qi Z.
    • Dou H.-M.
    • Liu X.-Y.
    • Han T.-F.
    • et al.
    Evaluating metagenomics tools for genome binning with real metagenomic datasets and CAMI datasets.
    BMC Bioinforma. 2020; 21: 334https://doi.org/10.1186/s12859-020-03667-3 IF: 3.0 Q2
    • Kang D.D.
    • Li F.
    • Kirton E.
    • Thomas A.
    • Egan R.
    • An H.
    • et al.
    MetaBAT 2: an adaptive binning algorithm for robust and efficient genome reconstruction from metagenome assemblies.
    PeerJ. 2019; 7e7359https://doi.org/10.7717/peerj.7359 IF: 2.7 Q2
    • Kang D.D.
    • Froula J.
    • Egan R.
    • Wang Z.
    MetaBAT, an efficient tool for accurately reconstructing single genomes from complex microbial communities.
    PeerJ. 2015; 3e1165https://doi.org/10.7717/peerj.1165 IF: 2.7 Q2
    • Broeksema B.
    • Calusinska M.
    • McGee F.
    • Winter K.
    • Bongiovanni F.
    • Goux X.
    • et al.
    ICoVeR – an interactive visualization tool for verification and refinement of metagenomic bins.
    BMC Bioinforma. 2017; 18: 233https://doi.org/10.1186/s12859-017-1653-5 IF: 3.0 Q2
    • Lin H.-H.
    • Liao Y.-C.
    Accurate binning of metagenomic contigs via automated clustering sequences using information of genomic signatures and marker genes.
    Sci Rep. 2016; 624175https://doi.org/10.1038/srep24175 IF: 4.6 Q2
    • Seah B.K.B.
    • Gruber-Vodicka H.R.
    gbtools: interactive visualization of metagenome bins in R.
    Front Microbiol. 2015; 6https://doi.org/10.3389/fmicb.2015.01451 IF: 5.2 Q2
    • Saitou N.
    • Nei M.
    The neighbor-joining method: a new method for reconstructing phylogenetic trees.
    Mol Biol Evol. 1987; 4: 406-425https://doi.org/10.1093/oxfordjournals.molbev.a040454 IF: 10.7 Q1
    • Xu R.
    • Wunsch D.
    Survey of clustering algorithms.
    IEEE Trans Neural Netw. 2005; 16: 645-678https://doi.org/10.1109/TNN.2005.845141
    • Brohée S.
    • van Helden J.
    Evaluation of clustering algorithms for protein-protein interaction networks.
    BMC Bioinforma. 2006; 7: 488https://doi.org/10.1186/1471-2105-7-488 IF: 3.0 Q2
    • Atkinson H.J.
    • Morris J.H.
    • Ferrin T.E.
    • Babbitt P.C.
    Using Sequence Similarity Networks for Visualization of Relationships Across Diverse Protein Superfamilies.
    PLoS ONE. 2009; 4e4345https://doi.org/10.1371/journal.pone.0004345 IF: 3.7 Q2
    • Yoon S.-H.
    • Ha S.-M.
    • Lim J.
    • Kwon S.
    • Chun J.
    A large-scale evaluation of algorithms to calculate average nucleotide identity.
    Antonie Van Leeuwenhoek. 2017; 110: 1281-1286https://doi.org/10.1007/s10482-017-0844-4 IF: 2.6 Q3
    • Azad A.
    • Pavlopoulos G.A.
    • Ouzounis C.A.
    • Kyrpides N.C.
    • Buluç A.
    HipMCL: a high-performance parallel implementation of the Markov clustering algorithm for large-scale networks.
    Nucleic Acids Res. 2018; 46e33https://doi.org/10.1093/nar/gkx1313 IF: 14.9 Q1
    • Blondel V.D.
    • Guillaume J.-L.
    • Lambiotte R.
    • Lefebvre E.
    Fast unfolding of communities in large networks.
    J Stat Mech. 2008; 2008: P10008https://doi.org/10.1088/1742-5468/2008/10/P10008 IF: 2.4 Q1
    • Jiang P.
    • Singh M.
    SPICi: a fast clustering algorithm for large biological networks.
    Bioinformatics. 2010; 26: 1105-1111https://doi.org/10.1093/bioinformatics/btq078 IF: 5.8 Q1
  6. Selvitopi O., Ekanayake S., Guidi G., Pavlopoulos G.A., Azad A., Buluc A. Distributed Many-to-Many Protein Sequence Alignment using Sparse Matrices. SC20: International Conference for High Performance Computing, Networking, Storage and Analysis, Atlanta, GA, USA: IEEE; 2020, p. 1–14. https://doi.org/10.1109/SC41405.2020.00079 .

  7. Selvitopi O., Ekanayake S., Guidi G., Awan M.G., Pavlopoulos G.A., Azad A., et al. Extreme-Scale Many-against-Many Protein Similarity Search. SC22: International Conference for High Performance Computing, Networking, Storage and Analysis, Dallas, TX, USA: IEEE; 2022, p. 1–12. https://doi.org/10.1109/SC41404.2022.00006 .

    • Kiełbasa S.M.
    • Wan R.
    • Sato K.
    • Horton P.
    • Frith M.C.
    Adaptive seeds tame genomic sequence comparison.
    Genome Res. 2011; 21: 487-493https://doi.org/10.1101/gr.113985.110 IF: 7.0 Q1
    • Eren A.M.
    • Esen Ö.C.
    • Quince C.
    • Vineis J.H.
    • Morrison H.G.
    • Sogin M.L.
    • et al.
    Anvi’o: an advanced analysis and visualization platform for ‘omics data.
    PeerJ. 2015; 3e1319https://doi.org/10.7717/peerj.1319 IF: 2.7 Q2
    • Caporaso J.G.
    • Kuczynski J.
    • Stombaugh J.
    • Bittinger K.
    • Bushman F.D.
    • Costello E.K.
    • et al.
    QIIME allows analysis of high-throughput community sequencing data.
    Nat Methods. 2010; 7: 335-336https://doi.org/10.1038/nmeth.f.303 IF: 48.0 Q1
    • Jolliffe I.T.
    • Cadima J.
    Principal component analysis: a review and recent developments.
    Philos Trans R Soc A. 2016; 374: 20150202https://doi.org/10.1098/rsta.2015.0202 IF: 5.0 Q2
    • Vázquez-Baeza Y.
    • Pirrung M.
    • Gonzalez A.
    • Knight R.
    EMPeror: a tool for visualizing high-throughput microbial community data.
    GigaSci. 2013; 2: 16https://doi.org/10.1186/2047-217X-2-16 IF: 9.2 Q1
    • Pavlopoulos G.A.
    • Malliarakis D.
    • Papanikolaou N.
    • Theodosiou T.
    • Enright A.J.
    • Iliopoulos I.
    Visualizing genome and systems biology: technologies, tools, implementation techniques and trends, past, present and future.
    Gigascience. 2015; 4: 38https://doi.org/10.1186/s13742-015-0077-2 IF: 9.2 Q1
    • Wang J.
    • Kong L.
    • Gao G.
    • Luo J.
    A brief introduction to web-based genome browsers.
    Brief Bioinforma. 2013; 14: 131-143https://doi.org/10.1093/bib/bbs029 IF: 9.5 Q1
    • Eizenga J.M.
    • Novak A.M.
    • Sibbesen J.A.
    • Heumos S.
    • Ghaffaari A.
    • Hickey G.
    • et al.
    Pangenome Graphs.
    Annu Rev Genom Hum Genet. 2020; 21: 139-162https://doi.org/10.1146/annurev-genom-120219-080406 IF: 8.7 Q1
    • Andreace F.
    • Lechat P.
    • Dufresne Y.
    • Chikhi R.
    Comparing methods for constructing and representing human pangenome graphs.
    Genome Biol. 2023; 24: 274https://doi.org/10.1186/s13059-023-03098-2 IF: 12.3 Q1
    • Vernikos G.S.
    A Review of Pangenome Tools and Recent Studies.
    in: Tettelin H. Medini D. The Pangenome. Springer International Publishing, Cham2020: 89-112https://doi.org/10.1007/978-3-030-38281-0_4
    • Zhao Y.
    • Jia X.
    • Yang J.
    • Ling Y.
    • Zhang Z.
    • Yu J.
    • et al.
    PanGP: A tool for quickly analyzing bacterial pan-genome profile.
    Bioinformatics. 2014; 30: 1297https://doi.org/10.1093/bioinformatics/btu017 IF: 5.8 Q1
    • Page A.J.
    • Cummins C.A.
    • Hunt M.
    • Wong V.K.
    • Reuter S.
    • Holden M.T.G.
    • et al.
    Roary: rapid large-scale prokaryote pan genome analysis.
    Bioinformatics. 2015; 31: 3691-3693https://doi.org/10.1093/bioinformatics/btv421 IF: 5.8 Q1
    • Laing C.
    • Buchanan C.
    • Taboada E.N.
    • Zhang Y.
    • Kropinski A.
    • Villegas A.
    • et al.
    Pan-genome sequence analysis using Panseq: an online tool for the rapid analysis of core and accessory genomic regions.
    BMC Bioinforma. 2010; 11: 461https://doi.org/10.1186/1471-2105-11-461 IF: 3.0 Q2
    • Parks D.H.
    • Chuvochina M.
    • Rinke C.
    • Mussig A.J.
    • Chaumeil P.-A.
    • Hugenholtz P.
    GTDB: an ongoing census of bacterial and archaeal diversity through a phylogenetically consistent, rank normalized and complete genome-based taxonomy.
    Nucleic Acids Res. 2022; 50: D785-D794https://doi.org/10.1093/nar/gkab776 IF: 14.9 Q1
    • Pavlopoulos G.A.
    • Soldatos T.G.
    • Barbosa-Silva A.
    • Schneider R.
    A reference guide for tree analysis and visualization.
    BioData Min. 2010; 3https://doi.org/10.1186/1756-0381-3-1 IF: 4.5 Q1
    • Huse S.M.
    • Mark Welch D.B.
    • Voorhis A.
    • Shipunova A.
    • Morrison H.G.
    • Eren A.M.
    • et al.
    VAMPS: a website for visualization and analysis of microbial population structures.
    BMC Bioinforma. 2014; 15: 41https://doi.org/10.1186/1471-2105-15-41 IF: 3.0 Q2
    • Huerta-Cepas J.
    • Serra F.
    • Bork P.
    ETE 3: reconstruction, analysis, and visualization of phylogenomic data.
    Mol Biol Evol. 2016; 33: 1635-1638https://doi.org/10.1093/molbev/msw046 IF: 10.7 Q1
    • Sukumaran J.
    • Holder M.T.
    DendroPy: a Python library for phylogenetic computing.
    Bioinformatics. 2010; 26: 1569-1571https://doi.org/10.1093/bioinformatics/btq228 IF: 5.8 Q1
    • Talevich E.
    • Invergo B.M.
    • Cock P.J.
    • Chapman B.A.
    Bio.Phylo: A unified toolkit for processing, analyzing and visualizing phylogenetic trees in Biopython.
    BMC Bioinforma. 2012; 13: 209https://doi.org/10.1186/1471-2105-13-209 IF: 3.0 Q2
    • Andersen K.S.
    • Kirkegaard R.H.
    • Karst S.M.
    • Albertsen M.
    ampvis2: an R package to analyse and visualise 16S rRNA amplicon data.
    Bioinformatics. 2018; https://doi.org/10.1101/299537
    • Ondov B.D.
    • Bergman N.H.
    • Phillippy A.M.
    Interactive metagenomic visualization in a Web browser.
    BMC Bioinforma. 2011; 12: 385https://doi.org/10.1186/1471-2105-12-385 IF: 3.0 Q2
    • Pavlopoulos G.A.
    • Wegener A.-L.
    • Schneider R.
    A survey of visualization tools for biological network analysis.
    BioData Min. 2008; 1: 12https://doi.org/10.1186/1756-0381-1-12 IF: 4.5 Q1
    • Pavlopoulos G.A.
    • Kontou P.I.
    • Pavlopoulou A.
    • Bouyioukos C.
    • Markou E.
    • Bagos P.G.
    Bipartite graphs in systems biology and medicine: a survey of methods and applications.
    Gigascience. 2018; 7: 1-31https://doi.org/10.1093/gigascience/giy014 IF: 9.2 Q1
    • N. Moschopoulos C.
    • A. Pavlopoulos G.
    • Likothanassis S.
    • Kossida S.
    Analyzing protein-protein interaction networks with web tools.
    CBIO. 2011; 6: 389-397https://doi.org/10.2174/157489311798072972 IF: 4.0 Q1
    • Papanikolaou N.
    • Pavlopoulos G.A.
    • Theodosiou T.
    • Iliopoulos I.
    Protein-protein interaction predictions using text mining methods.
    Methods. 2015; 74: 47-53https://doi.org/10.1016/j.ymeth.2014.10.026 IF: 4.8 Q1
    • Kontou P.I.
    • Pavlopoulou A.
    • Dimou N.L.
    • Pavlopoulos G.A.
    • Bagos P.G.
    Network analysis of genes and their association with diseases.
    Gene. 2016; 590: 68-78https://doi.org/10.1016/j.gene.2016.05.044 IF: 3.5 Q2
    • Pavlopoulos G.A.
    • O’Donoghue S.I.
    • Satagopam V.P.
    • Soldatos T.G.
    • Pafilis E.
    • Schneider R.
    Arena3D: visualization of biological networks in 3D.
    BMC Syst Biol. 2008; 2: 104https://doi.org/10.1186/1752-0509-2-104
    • Kolishovski G.
    • Lamoureux A.
    • Hale P.
    • Richardson J.E.
    • Recla J.M.
    • Adesanya O.
    • et al.
    The JAX Synteny Browser for mouse-human comparative genomics.
    Mamm Genome. 2019; 30: 353-361https://doi.org/10.1007/s00335-019-09821-4 IF: 2.5 Q3
    • Tang H.
    • Zhang X.
    • Miao C.
    • Zhang J.
    • Ming R.
    • Schnable J.C.
    • et al.
    ALLMAPS: robust scaffold ordering based on multiple maps.
    Genome Biol. 2015; 16: 3https://doi.org/10.1186/s13059-014-0573-1 IF: 12.3 Q1
    • Garcia P.S.
    • Jauffrit F.
    • Grangeasse C.
    • Brochier-Armanet C.
    GeneSpy, a user-friendly and flexible genomic context visualizer.
    Bioinformatics. 2019; 35: 329-331https://doi.org/10.1093/bioinformatics/bty459 IF: 5.8 Q1
    • Saha C.K.
    • Sanches Pires R.
    • Brolin H.
    • Delannoy M.
    • Atkinson G.C.
    FlaGs and webFlaGs: discovering novel biology through the analysis of gene neighbourhood conservation.
    Bioinformatics. 2021; 37: 1312-1314https://doi.org/10.1093/bioinformatics/btaa788 IF: 5.8 Q1
    • Botas J.
    • Rodríguez Del Río Á.
    • Giner-Lamia J.
    • Huerta-Cepas J.
    GeCoViz: genomic context visualisation of prokaryotic genes from a functional and evolutionary perspective.
    Nucleic Acids Res. 2022; 50: W352-W357https://doi.org/10.1093/nar/gkac367 IF: 14.9 Q1
    • Garber A.I.
    • Nealson K.H.
    • Okamoto A.
    • McAllister S.M.
    • Chan C.S.
    • Barco R.A.
    • et al.
    FeGenie: a comprehensive tool for the identification of iron genes and iron gene neighborhoods in genome and metagenome assemblies.
    Front Microbiol. 2020; 11: 37https://doi.org/10.3389/fmicb.2020.00037 IF: 5.2 Q2
    • Zallot R.
    • Oberg N.
    • Gerlt J.A.
    The EFI web resource for genomic enzymology tools: leveraging protein, genome, and metagenome databases to discover novel enzymes and metabolic pathways.
    Biochemistry. 2019; 58: 4169-4182https://doi.org/10.1021/acs.biochem.9b00735 IF: 2.9 Q3
  • ga1
  • Fig. 1
  • Fig. 2
  • Fig. 3
  • Fig. 4
  • Fig. 5
Toggle Thumbstrip
  • Graph. Abst.
    ga1
  • Fig. 1
    Fig. 1
  • Fig. 2
    Fig. 2
  • Fig. 3
    Fig. 3
  • Fig. 4
    Fig. 4
  • Fig. 5
    Fig. 5

Figures

  • ga1
    Graphical AbstractA. Minimum-Evolution tree - Adh sequence data from eleven fruit fly species B. iTol circular tree - Alignment of temporally sampled data for using RelTime with Dated Tips (RTDT) to estimate times of divergence C. iTOL unrooted tree - Alignment of temporally sampled data for using RelTime with Dated Tips (RTDT) to estimate times of divergence. D. Pavian E. Krona sunburst chart - Taxonomic abundance of skin microbiome samples for 4 consecutive days F. iTOL rectangular tree - Adh sequence data from eleven fruit fly species.
  • Fig. 1
    Fig. 1Different steps of a typical metagenomic analysis: (i) Marker gene detection and taxonomic assignment, (ii) De novo assembly towards the generation of larger contigs, and (iii) Map to reference genome (if it exists).
  • Fig. 2
    Fig. 2Different visualization concepts. (A) Circos diagram. (B) Upset plot & its corresponding Venn diagram. (C) HeatMap. (D) Bar chart (species). (E) Network. (F) Sunburst chart (Krona). (G) Treemap. (H) Phylogenetic tree. (I) Sankey plot. (J) Bubble chart. (K) Hive plot. (L) PCA map. All plots have been created using simulated data.
  • Fig. 3
    Fig. 3(A-C) Graph-based visualization of sequence assembly of Escherichia coli str. K-12 substrate MG1655 with (A) Bandage, (B) GFAviz, and (C) AbyssExplorer (NCBI:txid511145). (D) Heatmap visualizing the bin abundances of draft genomes using MetaWrap (Bioproject Accession: PRJEB2054, ID: 203783). (E) Binning of MAGs highlighting 214 bins of E.coli using BinaRena (BioProject: PRJNA382010). (F) CGView: Genome Contigs Viewer of Escherichia coli PA2 (NCBI RefSeq assembly GCF_000335355.2) in a circular format. (G-H) Scaffold visualization of E.coli K-12 with (G) IMG and (H) UCSC genome viewers. (I) Example of a pangenome graph.
  • Fig. 4
    Fig. 4(A) Sunburst chart (Krona) showing taxonomy. (B) Taxonomy with Sankey plot (Pavian). (C) Tree of Life visualized by iTOL. (D) Taxonomy visualized as a Bubble chart. (E) Taxonomy visualized as a Treemap. (F) Taxonomic Ordering with the use of Hilbert curves visualized by Jasper/Microbiome Maps. All the plots above have been created using example data provided with each tool.
  • Fig. 5
    Fig. 5(A-C) Various network visualization schemes for data retrieved from NMPFamsDB. (A) 2D Network visualization of NMPF distribution across different biomes, rendered using Gephi. (B) 3D, multi-layered network visualization of NMPFs associated with 4 human microbiomes, as well as additional annotation (sample type and availability of 3D model), created using Arena3Dweb. (C) A gene co-occurrence network describing the gene neighborhood of a novel metagenome protein family (F006270), constructed with data from NMPFamsDB and rendered using NORMA. The functional annotation of F006270’s neighboring genes is presented in the form of colored groups. (D) Gene neighborhood visualization for multiple MAGs through synteny conservation analysis, rendered using GeCoViz and the FESNov catalog. (E) Tree visualization of metagenome ecosystems, using the GOLD classification system. The number of metagenomic datasets associated with each ecosystem is given in parentheses. (F) Chronological progression of different SARS-Cov-2 strains in the form of a histogram, rendered using NextStrain. (G-H) Map visualizations of the geographical distribution across Europe (G) and global dispersion patterns of COVID-19 (H) rendered using NextStrain.

Tables