A comparative genomics study of 23 Aspergillus species from section Flavi

Assessment of 19 newly sequenced section Flavi genomes

In dieser Studie präsentieren wir die Ganzgenomsequenzen von 19 Arten aus der Aspergillus section Flavi (Abb. 1b). Zwei davon (A. nomius und A. arachidicola18,19) wurden parallel zu dieser Arbeit auch von anderen Gruppen veröffentlicht. Wir vergleichen diese 19 mit bereits sequenzierten Arten der Sektion Flavi (A. oryzae, A. flavus, A. sojae und A. luteovirescens3,12,13,14) sowie mit acht Referenzarten: sechs aus dem Rest der Gattung Aspergillus sowie Neurospora crassa und Penicillium digitatum als Außengruppen (Abb. 1a, b).

Abb. 1: Phylogenie und Genomstatistiken der Sektion Flavi sowie acht weiterer Aspergillus-, Penicillium- und Neurospora-Arten.
Abbildung1

a Phylogenetischer Baum, konstruiert mit RAxML, MUSCLE und Gblocks auf der Grundlage von 200 Monocore-Genen (ein einziges Homolog in jeder der Arten). Der rote Stern zeigt ein unsicheres Blatt an, das höchstwahrscheinlich auf eine andere Methode der Genbestimmung zurückzuführen ist98,99,100, und der Pfeil zeigt, wo A. sojae im phylogenetischen Baum platziert werden sollte. Der Zoom zeigt die Verzweigung in einer Klade um A. oryzae. b Die Farben veranschaulichen die Kladen, die innerhalb der Sektion Flavi gefunden wurden, und X steht für die in dieser Studie sequenzierten Arten. Frühere sequenzierte Genome wie A. oryzae und A. fumigatus wurden mit Hilfe von optischem Mapping und genetischen Karten assembliert. c Sieben Blasenplots, die die wichtigsten Genomnummern und Sequenzierungsqualitätsparameter veranschaulichen. Die Blasengrößen wurden für jedes Panel skaliert und sind nicht zwischen den Panels vergleichbar.

Als erster Basistest wurde die Qualität der Genomassemblierungen anhand der Genomgröße, des GC-Gehalts und der Anzahl der vorhergesagten Proteine verglichen (Abb. 1c). Dabei zeigte sich eine angemessene Qualität der Genom-Entwürfe, wobei 13 der 18 Genome zu weniger als 500 Gerüsten zusammengefügt wurden (Abb. 1c, Spalte 5). Ein Grund zur Besorgnis war A. coremiiformis mit 2728 Gerüsten, was uns Sorgen über die Qualität des Geninhalts machte. Das Genom deckt jedoch 99,78 % der Benchmarking Universal Single-Copy Orthologs (BUSCO20) ab, und 96 % der EST-Cluster (expressed sequence tag) können dem Genom zugeordnet werden. Wir kommen daher zu dem Schluss, dass die Genomannotation trotz der großen Anzahl von Gerüsten von ausreichender Qualität für Vergleiche des Geninhalts ist.

Sektion Flavi-Arten haben im Allgemeinen ausgedehnte Genome

Die Genomgrößen von Aspergillus Sektion Flavi sind im Allgemeinen groß im Vergleich zu anderen repräsentativen Aspergillen (durchschnittlich 37,96 Mbp vs. 31,7 Mbp (Abb. 1c)), wie zuvor für A. oryzae21 berichtet wurde. Eine wichtige Ausnahme ist A. coremiiformis, das sowohl weniger Gene als auch ein deutlich kleineres Genom hat und damit in der Sektion einzigartig ist.

Multigene Phylogenie zeigt komplexes Erbe von A. oryzae

Nun untersuchten wir die evolutionären Beziehungen in der Sektion Flavi auf der Grundlage einer aus 200 Genen abgeleiteten Phylogenie (Abb. 1a). Die Unterstützung der Verzweigungen innerhalb des Baumes ist hoch (100 von 100 Bootstraps in den meisten Zweigen). Der Baum bestätigt, dass die Sektion Flavi eine monophyletische Gruppe ist. Die Kladen in Abb. 1a entsprechen einem früher berichteten phylogenetischen Baum auf der Grundlage des Beta-Tubulin-Gens10,11,22 und die Abstände zwischen den Sektionen entsprechen früheren Arbeiten23.

Ein möglicher Fehler im Baum ist, dass A. sojae am nächsten zu A. flavus liegt, da A. sojae als domestizierte Version von A. parasiticus angesehen wird. Diese Verzweigung hat in der Tat auch den niedrigsten Bootstrap-Wert im Baum. Die wahrscheinlichste Erklärung dafür ist, dass die Genvorhersagen für A. sojae auf den Genomannotationen von A. flavus und A. oryzae basieren24,25 , was zu einer Verzerrung der vorhergesagten Gene führt, die sich wahrscheinlich im Baum widerspiegelt. Als Test haben wir phylogenetische Bäume mit alternativen Methoden erstellt, die nicht von der Genannotation abhängen (CVTree26,27). Diese zeigen eindeutig, dass A. sojae A. parasiticus am nächsten steht, sowohl bei Verwendung von Ganzgenom- als auch von Proteomsequenzen (ergänzende Abb. 1 und Abb. 2). Wir sind daher der Meinung, dass A. sojae im phyogenetischen Baum neben A. parasiticus platziert werden sollte, wie der Pfeil in Abb. 1a andeutet.

Außerdem steht A. oryzae, das als domestizierte Version von A. flavus angesehen wird10,28,29,30, im Baum nicht direkt neben ihm. Es wurde jedoch bereits früher vorgeschlagen, dass A. oryzae von einem Vorfahren abstammt, der der Vorfahre von A. minisclerotigenes oder A. aflatoxiformans war31. Die Phylogenie (Abb. 1a, Zoom) unterstützt diese Vermutung und zeigt, dass A. minisclerotigenes und A. aflatoxiformans engere Verwandte von A. oryzae sind als A. flavus.

Analyse gemeinsamer Proteine bestätigt hohe genetische Vielfalt

Um zentrale Merkmale, die allen Arten der Sektion Flavi gemeinsam sind, sowie Kladen und Merkmale einzelner Arten zu untersuchen, haben wir eine Analyse gemeinsamer homologer Gene innerhalb und zwischen den Arten16 durchgeführt und diese in homologe Proteinfamilien sortiert (Abb. 2). Dies ermöglichte die Identifizierung (1) der wichtigsten Genom-Protein-Familien mit mindestens einem Mitglied in allen verglichenen Arten. Es ist davon auszugehen, dass es sich dabei um essenzielle Proteine handelt. (2) Sektionsspezifische und kladenspezifische Gene – Gene, die in allen Mitgliedern einer Klade/Sektion homolog sind, aber bei keiner anderen Art. (3) Spezies-spezifische Gene – Gene, die bei keiner anderen Spezies im Vergleich homolog sind.

Abbildung 2: Kernspezifische, sektionsspezifische, kladenspezifische und speziesspezifische Gene.
Abbildung 2

a Ein Dendrogramm, das die phylogenetische Beziehung zwischen den 29 Aspergillen darstellt. Die schwarzen Kästchen in den Knoten stellen die homologen Proteinfamilien dar, die von den Arten geteilt werden, die sich von diesem Knoten aus verzweigen. Die weißen Kästchen an den Spitzen stellen die Proteinfamilien dar, die für die jeweilige Art einzigartig sind. b Ein Balkendiagramm, das die Anzahl der Gesamtproteine (grün), der Kernproteine (türkis) und der artspezifischen Proteine (orange) für jede Art zeigt. Die dunkle Schattierung zeigt die Anzahl der Proteine mit mindestens einer funktionellen Annotation auf der Grundlage von InterPro32.

Das Kerngenom aller 31 Arten in diesem Datensatz umfasst 2082 Proteinfamilien. Für die 29 Aspergillus-Arten beträgt diese Zahl 3853, und für die Sektion Flavi-Arten allein sind es 4903 Proteinfamilien. Somit variiert mehr als die Hälfte des Genoms der Sektion Flavi-Spezies zwischen den Arten.

Bei der Untersuchung der kladenspezifischen Proteinfamilien wurden nur sehr wenige (27-54) gefunden (Abb. 2a), was im Vergleich zu der zuvor untersuchten Sektion Nigri wenig ist16. Da die Sektionen Nigri und Flavi etwa gleich artenreich sind, könnte dies darauf hindeuten, dass die Arten in der Sektion Flavi stärker ausgeprägt sind. Dies wird durch die Tatsache unterstützt, dass die Zahl der artspezifischen Gene sehr hoch ist (166-2181), wobei wir 166 (A. sojae) als eine künstlich niedrige Zahl ansehen, da die Genaufrufe in diesem Genom auf den Genomen von A. flavus und A. oryzae basieren.

Spezies-spezifische Gene kodieren oft für Regulierung und P450

Wir wollten herausfinden, ob die spezies-spezifischen Gene mit bekannten Flavi-Funktionen wie Lebensmittelfermentation und Pathogenität für Pflanzen und Menschen in Verbindung gebracht werden können. Zu diesem Zweck untersuchten wir die vorhergesagten Funktionen der artspezifischen Gene anhand von InterPro-, GO- und KOG-Annotationen32,33,34,35. Der Anteil der Gene mit einer funktionellen Annotation war gering: 20, 12 bzw. 9 % für InterPro, GO und KOG; insgesamt hatten 21 % eine Annotation (ergänzende Abbildungen 3-5). Dies ist ein sehr hoher – aber nicht ungewöhnlicher – Prozentsatz nicht identifizierbarer Funktionen.

Wir konzentrieren uns auf InterPro, da es mehr Gene abdeckt: Zu den häufigsten InterPro-Funktionen gehören Transkriptionsfaktoren, Proteinkinasen, Transporter und P450 (ergänzende Abb. 3), die ebenfalls deutlich überrepräsentiert sind. Während diese Merkmale nicht direkt mit der Lebensmittelfermentation und Pathogenität in Verbindung gebracht werden können, ist die Regulierung an der Anpassung beteiligt, und P450s spielen sowohl beim Substratabbau als auch bei der Produktion bioaktiver Verbindungen eine Rolle, die beide für die Pathogenität von Pilzen relevant sind.

Speziesgene sind in subtelomerischen Regionen überrepräsentiert

Es wurde gezeigt, dass die subtelomerischen Sequenzen in A. nidulans, A. oryzae und A. fumigatus21 stark umstrukturierte Regionen sind. Dies ist auch bei Säugetieren, Fadenwürmern und Hefen zu beobachten36. Frühere Studien37,38 haben gezeigt, dass subtelomere Regionen eine Tendenz zu einzigartigen, abweichenden oder fehlenden Genen aufweisen. Eine andere Studie hat gezeigt, dass Sekundärmetabolit-Gencluster (SMGCs) in subtelomerischen Regionen von A. nidulans und A. fumigatus angereichert sind21.

Wir untersuchten daher die Gendichte und die Lage von artspezifischen Genen, Sekundärmetabolit-Clustern und Kerngenom, indem wir das Telomer-zu-Telomer-Genom von A. oryzae-Genom als Referenz verwendet, um die mögliche Überrepräsentation dieser Gene in den subtelomeren Regionen zu beurteilen (Abb. 3).

Abb. 3: Lage der artspezifischen und Sekundärmetabolit-Gene im A. oryzae-Genom.
Abbildung3

Die grauen Balken stellen das A. oryzae-Genom dar. Oberhalb des Chromosoms sind die artspezifischen (türkis) und sekundären Metabolitengene (orange) auf dem Genom abgebildet, jede Linie steht für ein Gen. Die Kurve zeigt den prozentualen Anteil der Dichte, berechnet aus der Gesamtzahl der Gene innerhalb von 30 kbp in Schritten von 5 kb. Unterhalb des Genoms werden die Kerngene durch die grauen Punkte abgebildet, und die Dichte der Gesamtzahl der Gene wird durch die schwarze Kurve dargestellt (mit einem Fenster von 30 kbp).

Sowohl die visuelle Inspektion als auch der exakte Test nach Fisher bestätigten, dass sowohl die artspezifischen (p-value = 7.266e-07) als auch SMGCs (p-value < 2.2e-16) in den subtelomerischen Regionen (100 kbp von den chromosomalen Enden entfernt) angereichert sind, während Kerngene weniger häufig in den subtelomerischen Regionen zu finden sind. Die Tatsache, dass die artspezifischen Gene nicht zufällig verteilt sind, spricht dagegen, dass es sich einfach um Annotations- oder Genmodellierungsfehler handelt, und deutet darauf hin, dass es sich tatsächlich um legitime Gene handelt. Die Verteilung der artspezifischen Gene deutet darauf hin, dass neue Gene häufiger erfolgreich in die subtelomeren Regionen eingebaut werden als an anderen Stellen. Ob dies das Ergebnis einer Selektion für die subtelomerische Region oder einer Gegenselektion gegen andere Regionen oder beides ist, geht aus den Daten nicht hervor.

Syntenie-Analysen zeigen Inseln mit sehr variablem Gengehalt

Syntenische und nicht-syntenische Regionen sind ein weiterer Faktor, der bei der Analyse der Genomlage zu berücksichtigen ist. Es hat sich gezeigt, dass das Genom von A. oryzae im Vergleich zu weit verwandten Aspergillen1,2 ein Mosaikmuster aus syntenischen und nichtsyntenischen Regionen aufweist. Wir untersuchten die Syntenie in der Sektion Flavi und in A. nidulans und A. fumigatus unter Verwendung von A. oryzae RIB40 als Referenz (Tabelle 1). Diese Analyse bestätigt unsere frühere Feststellung, dass A. oryzae enger mit A. aflatoxiformans als mit A. flavus verwandt ist.

Tabelle 1 Prozentualer Anteil des Genoms mit konservierter Syntenie im Vergleich zu A. oryzae.

Eine Übersicht der gemeinsamen syntenischen Gene ist in der ergänzenden Abb. 6 dargestellt. Im Allgemeinen gibt es weniger syntenische Regionen zu den telomeren Enden hin, wie dies zuvor bei einem Vergleich von A. nidulans, A. fumigatus und A. oryzae beobachtet wurde1,2. Wir haben außerdem festgestellt, dass die Chromosomen 1 und 2 einen sehr hohen Grad an konservierter Syntenie aufweisen, während die Chromosomen 6 und 8 eine viel geringere Konservierung der Syntenie aufweisen.

Wir finden dichte Inseln von nicht-syntenischen Genen in nicht-subtelomerischen Regionen auf den Chromosomen 4, 6 und 8. Diese könnten durch horizontalen Gentransfer (HGT), Gen-Shuffling oder de novo-Genbildung verursacht werden. Wir untersuchten HGTs mit BLASTp, um die besten Treffer in der nichtredundanten Datenbank des NCBI zu finden. Von rezenten HGTs wird erwartet, dass sie eine hohe Sequenzidentität mit einer anderen Artengruppe aufweisen, von der sie übertragen wurden, und nicht in den eng verwandten Arten zu finden sind39. Keine dieser Inseln wies Anzeichen für rezente HGTs auf. Außerdem waren nur 23 der 80 Gene in den nicht-synthetischen Blöcken A. oryzae-spezifisch. Es scheint daher wahrscheinlich, dass diese nicht-synthetischen Inseln durch eine Mischung aus signifikanten Umlagerungen, Duplikationen und der Entstehung von A. oryzae-spezifischen Genen verursacht werden.

Zusammengenommen könnte die Tatsache, dass wir einige sehr konservierte Chromosomen und einige stark umlagerte nicht-synthetische Blöcke beobachten, auf einen evolutionären Stabilitätsdruck in einigen Regionen hindeuten, während andere Regionen häufig Genverschiebungen und Umlagerungen ausgesetzt sind, d. h.,

Die Sektion Flavi ist eine reiche Quelle für kohlenhydrataktive Enzyme

Kohlenhydrataktive Enzyme (CAZyme) sind entscheidend dafür, welche Kohlenstoffquellen eine Art abbauen und verwerten kann. Innerhalb der Sektion Flavi sind die CAZyme/Kohlenstoffverwertung hauptsächlich für A. oryzae1,2,40 und in geringerem Maße für A. flavus41,42,43,44,45 und A. sojae46,47 beschrieben, während für andere Arten dieser Gruppe nur vereinzelte Studien durchgeführt wurden48,49,50,51,52,53,54, die oft die Produktion oder Charakterisierung einer bestimmten CAZyme-Aktivität bzw. eines Proteins beschrieben.

Wir haben die CAZy-Datenbank verwendet, um den CAZyme-Gehalt in den Genomen der Sektion vorherzusagen (Abb. 4). Insgesamt wurden 13.759 CAZyme für die 23 Flavi-Arten vorhergesagt (durchschnittlich 598/Art). Dies ist im Vergleich zu den eingeschlossenen Aspergillen (508/Spezies) recht reichhaltig.

Abb. 4: Kohlenhydrat-aktive Enzyme (CAZyme) in der Sektion Flavi.
Abbildung4

a Die Gesamtzahl der CAZyme in jeder Art, verteilt auf sechs Kategorien von Enzymaktivitäten: Hilfsaktivitäten, kohlenhydratbindende Moleküle, Kohlenhydratesterasen, Glykosidhydrolasen, Glykosyltransferasen und Polysaccharidlyasen. b Boxplot, der die Vielfalt des Gehalts und der Häufigkeit der CAZyme-Familie in den Kladen A. flavus (hellblau), A. tamarii (gelb), A. nomius (dunkelblau), A. alliaceus (helltürkis), dem Rest der Sektion Flavi (orange), anderen Aspergillus (dunkel türkis) und Nicht-Aspergillus-Arten (grau) darstellt. Für jede CAZyme-Klasse werden die Gesamtzahl der CAZyme (obere Zeile) und die Anzahl der einzigartigen CAZyme-Familien (untere Zeile) angezeigt. Im Boxplot stellt die Mittellinie den Median dar, die obere und untere Grenze der Box das dritte und erste Quartil, und die Whisker erstrecken sich bis zum 1,5-fachen des Interquartils.

Aus dieser Analyse geht klar hervor, dass es einen deutlichen Unterschied zwischen den Kladen der Sektion Flavi gibt (Abb. 4b), was wiederum eine Variation im Gengehalt der Sektion zeigt.

Variabler CAZyme-Gehalt spiegelt nicht die Fähigkeit zum Abbau pflanzlicher Biomasse wider

Um die tatsächliche Fähigkeit zur Kohlenstoffverwertung in der Sektion Flavi zu bewerten, haben wir ein Wachstumsprofil von 31 Arten (29 Aspergillen, darunter 23 Arten aus der Sektion Flavi) auf 35 Substraten, die mit pflanzlicher Biomasse in Verbindung stehen, erstellt (Abb. 5, ergänzende Daten 1) und dies mit der Vorhersage des CAZyme-Gehalts verglichen, der sich auf den Abbau pflanzlicher Biomasse bezieht (ergänzende Daten 2). In einer früheren Studie konnten die Wachstumsunterschiede zwischen entfernt verwandten Aspergillen mit Unterschieden im CAZyme-Gehalt55 in Verbindung gebracht werden, was jedoch bei näher verwandten Arten aus der Aspergillus-Sektion Nigri16 nicht der Fall war.

Abb. 5: Kohlenhydrat-aktive Enzyme in der Sektion Flavi, sortiert nach dem Phylogramm von Abb. 1. 1.
Abbildung5

a Heatmap, die die Wachstumsprofile von 23 Flavi-Arten und 8 weiteren Arten auf 35 verschiedenen Medien darstellt. b Vergleich der CAZyme, die mit dem Abbau pflanzlicher Biomasse in den Genomen von Arten aus der Aspergillus-Sektion Flavi und einigen anderen Pilzen zusammenhängen. Die Farben spiegeln die Polysaccharide wider, gegenüber denen die Enzyme aktiv sind.

Glukose ergab das beste Wachstum aller Monosaccharide für alle Arten und wurde daher als interne Referenz für das Wachstum verwendet (ergänzende Abb. 7). Das Wachstum auf anderen Kohlenstoffquellen wurde mit dem Wachstum auf d-Glucose verglichen, und dieser relative Unterschied wurde zwischen den Arten verglichen. Das Wachstum auf Monosacchariden war bei den Arten der Sektion Flavi weitgehend ähnlich (Abb. 5, ergänzende Abb. 7 und ergänzende Daten 1).

Die CAZyme, die mit dem Abbau pflanzlicher Biomasse zusammenhängen, sind bei der Sektion Flavi insgesamt sehr ähnlich (Abb. 5), mit Ausnahme von A. coremiiformis, das einen stark reduzierten Gensatz aufweist. Dies ist vor allem auf die Verringerung der Glykosidhydrolase-Familien zurückzuführen, aber auch auf eine Reihe von Familien, die mit dem Abbau von Pektin, Xylan und Xyloglucan zusammenhängen. Überraschenderweise zeigte diese Art ein besseres relatives Wachstum auf Xylan als die meisten anderen Arten, während das Wachstum auf anderen Polysacchariden im Wesentlichen dem der Sektion Flavi entsprach. Der reduzierte Gensatz hat also ihre Fähigkeit zum Abbau pflanzlicher Biomasse nicht beeinträchtigt. Dies könnte mit dem Fall von T. reesei vergleichbar sein, das ebenfalls einen reduzierten CAZyme-Gensatz hat, aber die entsprechenden Enzyme in sehr hohen Mengen produziert56. Der Ursprung dieses Ansatzes ist jedoch wahrscheinlich ein ganz anderer, da sein CAZyme-Gehalt durch den Verlust und dann den massiven HGT-Zuwachs von pflanzlichen Zellwand-abbauenden Enzymen geprägt wurde57, während es für A. coremiiformis keine Hinweise darauf gibt.

Hydrolytische Unterschiede sind innerhalb der Sektion Flavi kladenspezifisch (Supplementary Data 2). Die A. togoensis-Klade hat einen reduzierten Satz xylanolytischer und xyloglucanolytischer Gene, aber dies spiegelt sich nicht im Wachstum wider. Im Gegensatz dazu sind die GH115-Gene (Alpha-Glucuronidase) in den Kladen A. flavus, A. tamarii und A. nomius erweitert (xylanolytische Enzyme oder Aktivität wurden von mehreren Arten aus diesen Kladen berichtet49,50,51,53,58,59,60,61,62), GH62 (Arabinoxylan-Arabinofuranohydrolase) war in der Klade A. leporis erweitert, und die Kladen A. leporis und A. avenaceus waren die einzigen Kladen mit CE15 (Glucuronoyl-Esterasen), die auch in Aspergillus-Arten außerhalb der Sektion Flavi gefunden wurden.

Die Fähigkeit, Galaktomannan abzubauen, war in der Sektion Flavi fast vollständig konserviert, aber interessanterweise war das Wachstum auf Guarkernmehl, das hauptsächlich aus Galaktomannan besteht, zwischen den Arten unterschiedlich. In ähnlicher Weise führte die verminderte amylolytische Fähigkeit der Kladen A. togoensis und A. avenaceus nicht zu einem verminderten Wachstum auf Stärke oder Maltose.

Variationen wurden bei der Anzahl der pektinolytischen Gene beobachtet. Die deutlichsten Unterschiede waren das Fehlen von PL11-Genen (Rhamnogalacturonan-Lyase) bei den meisten Arten der Sektion Flavi und die Zunahme von GH78 (Alpha-Rhamnosidase) in den Kladen A. flavus und A. tamarii. Diese Unterschiede und die kleineren Unterschiede in anderen Familien führten jedoch nicht zu großen Unterschieden beim Wachstum auf Pektin.

Deutlichere Unterschiede gab es beim Wachstum auf Cellobiose, Laktose und Lignin. Die meisten Arten wuchsen schlecht auf Cellobiose, obwohl die Anzahl der Beta-Glucosidase kodierenden Gene bei den meisten Arten ähnlich war (Ergänzende Daten 2). In ähnlicher Weise wuchs nur A. arachidicola und in geringerem Maße A. albertensis gut auf Laktose, während die Anzahl der beta-Galaktosidasen bei diesen Arten ähnlich hoch ist wie bei den anderen Arten. Am interessantesten war die Feststellung, dass A. albertensis ebenso gut auf Lignin wie auf d-Glucose wuchs, was auf mögliche Anwendungen in der Biokraftstoffproduktion hindeutet.

Zusammenfassend lässt sich sagen, dass das CAZyme-Potenzial in der Sektion Flavi weitgehend konserviert ist (mit Ausnahme von A. coremiiformis), mit einigen Variationen in der Kopienzahl, aber das genomische Potenzial und die Variationen spiegeln sich nicht unbedingt im Wachstum wider. Es ist daher wahrscheinlich, dass die beobachteten Unterschiede, wie bereits früher vermutet55 , weitgehend auf der regulatorischen Ebene liegen.

Die CAZym-Familie GH28 ist in der Klade A. flavus aufgebläht

Wir waren besonders an den CAZymen der GH28-Familie interessiert, da sie für die Lebensmittelfermentation und die Qualität des fermentierten Endprodukts wichtig sind63. Es wurde ein phylogenetischer Baum aller Mitglieder von GH28 aus der Sektion Flavi erstellt (ergänzende Abb. 8). Der Baum besteht aus 429 Proteinen, durchschnittlich 18,7 pro Art.

Innerhalb des Baums gibt es verschiedene Gruppierungen. Fünf Gruppen haben Mitglieder aus allen 23 Arten, in neun Gruppen fehlen eine bis vier Arten (in der Regel A. coremiiformis und A. caelatus), und zwei Gruppen sind spezifisch für die Kladen von A. flavus, A. tamarii und A. nomius. Schließlich gibt es noch acht Gruppen mit 2-13 Arten, die nicht der Phylogenie folgen, was darauf hindeutet, dass sie Quellen der GH28-Variation sind.

Im Allgemeinen haben die Arten der A. flavus-Klade eine hohe Anzahl von GH28-Mitgliedern. A. sojae ist bekannt für eine hohe Anzahl von GH28, die auch hier mit 24 Mitgliedern zu sehen ist; A. sergii hat jedoch mit 25 Mitgliedern eine noch höhere Anzahl. Es könnte interessant sein zu untersuchen, ob dies entweder durch die Verwendung von A. sergii als neue Spezies in der Lebensmittelfermentation und/oder als Quelle neuartiger Enzyme ausgenutzt werden könnte.

Analyse des Sekundärstoffwechsels

Die Gattung Aspergillus ist dafür bekannt, eine große Anzahl von SMs zu produzieren, und die Anzahl der vorhergesagten SMGCs ist sogar noch höher. Die meisten der vorhergesagten SMGCs sind nicht charakterisiert und haben daher das Potenzial, eine Vielzahl neuartiger, bioaktiver Verbindungen zu produzieren. Wir haben die Vielfalt und das Potenzial für die SM-Produktion in Sektion Flavi untersucht, sowohl quantitativ in Bezug auf die Anzahl der Cluster als auch qualitativ in Bezug auf die Verbindungen, die diese Cluster potenziell produzieren könnten.

Der Sekundärstoffwechsel in der Sektion Flavi ist vielfältig und produktiv

Um das Potenzial für die SM-Produktion quantitativ zu bewerten, wurden SMGCs mit Hilfe eines SMURF-ähnlichen Vorhersagetools64 für alle Arten mit Ausnahme von N. crassa und A. sojae vorhergesagt, da diese mit anderen Methoden und mit unterschiedlichen Genaufrufmethoden sequenziert wurden (Abb. 6c). Innerhalb der 28 Aspergillus-Arten gibt es insgesamt 1972 vorhergesagte SMGCs und für die Genome der Sektion Flavi sind es insgesamt 1606 SMGCs (73/Art). Das sind mehr als 15 zusätzliche SMGCs pro Art im Vergleich zu der sehr produktiven Gattung Penicillium65.

Abb. 6: Dereplikation bekannter Verbindungen und vorhergesagter Sekundärmetabolit-Grundgerüstgene pro Art.
Abbildung6

a Ein Dendrogramm, das die phylogenetische Beziehung zwischen den Arten darstellt. Die schwarzen Kästen in den Knoten stellen die Familien der Sekundärmetaboliten-Gencluster (SMGC) dar, die von den Arten, die sich von diesem Knoten aus verzweigen, gemeinsam genutzt werden. Wenn kein schwarzes Kästchen vorhanden ist, gibt es keine gemeinsamen Cluster. Die grauen Kästchen an den Spitzen zeigen die Anzahl der einzigartigen SMGC-Familien, die nur in einer Art für den Flavi-Abschnitt gefunden wurden. b Matrix, die das Vorhandensein und Fehlen von SMGC-Familien anzeigt, die mit bekannten Clustern aus der MIBiG-Datenbank66 für jede Art gekoppelt sind. Ein Überblick über die Cluster-Familie für Aflatoxin findet sich in der ergänzenden Abbildung 11. c Vorausgesagte Sekundärmetabolit-Gene für jede Art, unterteilt nach dem Backbone-Enzym. DMAT: Dimethylallyltransferase (Prenyltransferasen), HYBRID: ein Backbone-Gen, das Domänen von NRPS- und PKS-Backbones enthält, NRPS: nicht-ribosomale Peptidsynthetase, NRPS-like: Nicht-ribosomale Peptidsynthetase-ähnliche, die mindestens zwei NRPS-spezifische Domänen und eine weitere Domäne oder eine NRPS-A-Domäne in Kombination mit einer NAD-bindenden 4-Domäne oder einer kurzkettigen Dehydrogenase enthält, PKS: Polyketidsynthase, PKS-ähnliche: Polyketidsynthase-ähnliche, die mindestens zwei PKS-spezifische Domänen und eine weitere Domäne enthält, TC: Terpencyclase.

Wir wollten untersuchen, wie einzigartig die SMGCs sind, und konstruierten daher SMGC-Familien (Supplementary Data 3). Für den gesamten Datensatz konnten wir 477 SMGC-Familien und für den Abschnitt Flavi 308 SMGC-Familien bilden. Davon sind 150 SMGC-Cluster nur in einer einzigen Sektion Flavi-Spezies zu finden (Abb. 6a), was auf eine große Anzahl einzigartiger Cluster in jeder Spezies hinweist (6,8 einzigartige SMGCs/Spezies). Im Vergleich zu Aspergillus Sektion Nigri ist die Anzahl der Cluster pro Spezies in dieser Studie etwas geringer, aber die Anzahl der Mitglieder in jeder SMGC-Familie ist ebenfalls geringer, was eine größere Vielfalt im Sekundärstoffwechsel in Sektion Flavi im Vergleich zu Sektion Nigri zeigt.

Dereplizierung des Sekundärstoffwechsels sagt Toxinproduzenten voraus

Um das Potenzial für die SM-Produktion qualitativ zu bewerten, verwendeten wir eine Pipeline der „genetischen Dereplikation“, bei der vorhergesagte Cluster mit verifizierten charakterisierten Clustern (aus der MIBiG-Datenbank66) in einer „guilt-by-association“-Methode67 in Verbindung gebracht werden. Auf dieser Grundlage wurden 20 Clusterfamilien zu einer zusammengesetzten Familie verbunden (Abb. 6b). Einige Clusterfamilien wurden in allen oder fast allen Flavi-Genomen gefunden, z. B. solche, die den Clustern Naphthopyrone68, Nidulanin A69, Azanigeron70, 4,4′-Piperazin-2,5-diyldimethyl-bis-phenol und Aflavarin71/Endocrocin72,73 ähneln. Die meisten Familien folgen im Allgemeinen den phylogenetischen Gruppen, was auf ein verlustbasiertes Verteilungsmuster hindeutet, aber einige, wie die SMGC-Familien, die den Clustern Asperfuranon74, Pseurotin A75 oder Fumagillin76 ähneln, folgten nicht der Phylogenie. Darüber hinaus wurden potenzielle Produzenten bekannter Toxine wie Aflatoxin und Aspirochlorin identifiziert (Abb. 6b).

Kombination von Daten und Analyse verbindet eine Verbindung mit einem Cluster

Ausgehend von den bekannten SMGC-Clustern waren wir daran interessiert, Verbindungen und Cluster auf der Grundlage des An-/Abwesenheitsmusters von produzierten Verbindungen und vorhergesagten Clustern zu verbinden. Daher erstellten wir eine Heatmap aller Cluster-Familien, die in mindestens fünf Arten gefunden wurden, und fügten die vorhergesagten Verbindungsfamilien aus der MIBiG-Dereplikation sowie manuell kuratierte Verbindungsfamilien aus einer Literaturübersicht hinzu (ergänzende Abb. 9). Darüber hinaus haben wir die SM-Produktion der Flavi-Arten gemessen (Supplementary Data 4).

Von besonderem Interesse waren die Miyakamide. Sie wurden ursprünglich aus einem A. flavus-Isolat isoliert und es wurde nachgewiesen, dass sie antibiotische Eigenschaften haben77 , aber der biosynthetische Gencluster ist nicht bekannt. Unsere chemische Analyse ergab eine Produktion in A. sojae, A. nomius, A. parasiticus, A. novoparasiticus und A. transmontanensis.

Ausgehend von der chemischen Struktur führten wir eine Retro-Biosynthese durch und sagten voraus, dass der biosynthetische Gencluster eine nichtribosomale Peptidsynthetase (NRPS) mit 2-3 Adenylierungsdomänen (da zwei der drei Aminosäuren ähnlich sind), eine N-Methyltransferase, eine Acetyltransferase und möglicherweise eine Decarboxylase/Dehydrogenase enthalten sollte (ergänzende Abb. 10A). Bei der Suche nach Cluster-Familien mit Mitgliedern in allen Miyakamid-produzierenden Spezies, die NRPS-Grundgerüste mit 2-3 Adenylierungsdomänen und einer Methyltransferase-Domäne haben, erfüllte nur eine Cluster-Familie die Anforderungen. Die Clusterfamilie hat ein NRPS-Grundgerüst mit einer Methyltransferase-Domäne, drei A-Domänen in den meisten Arten und zwei in A. novoparasiticus. Die Vorhersage von nur zwei A-Domänen ist höchstwahrscheinlich auf einen Annotationsfehler zurückzuführen, da die Sequenzähnlichkeit vor dem Beginn des Gens konserviert ist (ergänzende Abb. 10B). Die Größe des vorhergesagten Clusters liegt bei 1-9 Genen, der Unterschied wird wahrscheinlich durch SMGC-Vorhersagefehler verursacht (Synteny-Plot in ergänzender Abb. 10B). Der Synteny-Plot zeigt, dass die NRPS und zwei kleine Gene mit unbekannter Funktion weitgehend konserviert sind. Wir schlagen daher vor, dass das identifizierte NRPS zusammen mit den beiden konservierten Genen mit unbekannter Funktion wahrscheinlich Kandidaten für die Miyakamid-Biosynthese sind.

Der Gencluster für die Biosynthese von Aflatoxin ist hoch konserviert

Der vielleicht bekannteste Sekundärmetabolit in der Sektion Flavi ist das hochgradig krebserregende Aflatoxin. Es ist bekannt, dass Aflatoxine von vielen Arten der Sektion Flavi produziert werden (A. arachidicola, A. luteovirescens, A. flavus, A. minisclerotigenes, A. nomius, A. aflatoxiformans, A. pseudocaelatus, A. pseudonomius, A. pseudotamarii und einige A. oryzae Isolate)4,10.

Die Dereplikationsanalyse (Abb. 6b) identifizierte eine SMGC-Familie, von der man annimmt, dass sie an der Sterigmatocystin- und Aflatoxin-Produktion beteiligt ist, und zwar alle Arten in den A. flavus-, A. nomius- und A. tamarii-Kladen außer A. tamarii. Eine Syntenie-Darstellung der SMGC-Familie (ergänzende Abb. 11) zeigt, dass der Cluster extrem gut konserviert ist, ohne Umlagerungen und mit einer hohen Alignment-Identität für die Aflatoxin-Gene. Nur bei A. caelatus gibt es eine verkürzte Form, bei der nur die Gene aflB, aflC und aflD vorhanden sind, und bei A. tamarii scheint der Cluster vollständig verloren gegangen zu sein. Interessanterweise enthielten die meisten der vorhergesagten Cluster nicht die aflP- und aflQ-Gene, die für den letzten Schritt der Aflatoxin-Biosynthese verantwortlich sind. Wir suchten in den Genomen nach aflP (ergänzende Abb. 12) und fanden es in allen Genomen, allerdings mit unterschiedlichen Startstellen und einer zusätzlichen Sequenz in der Mitte der Proteine. RNA-seq-Daten unterstützen diese Modelle (s. Abb. 13) und lassen auf Fehler in den Genmodellen von A. flavus schließen. In ähnlicher Weise ist das aflQ-Gen in allen anderen Arten zu finden, allerdings 5-10 Gene entfernt von den vorhergesagten Clustern. Eine detaillierte Analyse zeigt also, dass alle diese Arten die für die Aflatoxin-Biosynthese erforderlichen Gene besitzen.