A comparative genomics study of 23 Aspergillus species from section Flavi

Assessment of 19 newly sequenced section Flavi genomes

In this study, we present the whole-genome sequences of 19 species from Aspergillus section Flavi (Fig. 1b). Due di queste (A. nomius e A. arachidicola18,19) sono state pubblicate da altri gruppi in parallelo a questo lavoro. Confrontiamo questi 19 alle specie precedentemente sequenziate della sezione Flavi (A. oryzae, A. flavus, A. sojae, e A. luteovirescens3,12,13,14) così come otto specie di riferimento: sei dal resto del genere Aspergillus più Neurospora crassa e Penicillium digitatum come outgroup (Fig. 1a, b).

Fig. 1: Filogenesi e statistiche del genoma della sezione Flavi più altre otto specie di Aspergillus, Penicillium, e Neurospora.
figura1

un albero filogenetico costruito usando RAxML, MUSCLE, e Gblocks basato su 200 geni monocore (un singolo omologo in ciascuna delle specie). La stella rossa indica una foglia incerta causata molto probabilmente da un diverso metodo di chiamata dei geni98,99,100, e la freccia mostra dove A. sojae dovrebbe essere collocata nell’albero filogenetico. Lo zoom mostra la ramificazione in un clade intorno a A. oryzae. b I colori illustrano i cladi trovati all’interno della sezione Flavi e X indica le specie sequenziate in questo studio. I genomi sequenziati in precedenza, come A. oryzae e A. fumigatus, sono stati assemblati utilizzando la mappatura ottica e le mappe genetiche. c Sette grafici a bolle che illustrano i numeri chiave del genoma e i parametri di qualità del sequenziamento. Le dimensioni delle bolle sono state scalate per ogni pannello e non sono comparabili tra i pannelli.

Come primo test di base, la qualità degli assemblaggi del genoma è stata confrontata in base alle dimensioni del genoma, al contenuto di GC e al numero di proteine previste (Fig. 1c). Questo ha mostrato una qualità ragionevole del genoma di progetto con 13 dei 18 genomi assemblati in meno di 500 scaffold (Fig. 1c, colonna 5). Una causa di allarme era A. coremiiformis con 2728 scaffold, che ci ha fatto preoccupare per la qualità del contenuto genico. Tuttavia, il genoma copre il 99,78% dei Benchmarking Universal Single-Copy Orthologs (BUSCO20), e il 96% dei cluster di expressed sequence tag (EST) può essere mappato sul genoma. Concludiamo quindi che l’annotazione del genoma è di una qualità abbastanza alta per i confronti del contenuto genico nonostante il gran numero di scaffold.

Le specie della sezione Flavi hanno generalmente genomi espansi

Le dimensioni del genoma di Aspergillus sezione Flavi sono generalmente grandi rispetto ad altri Aspergilli rappresentativi (media di 37,96 Mbp contro 31,7 Mbp (Fig. 1c)), come è stato precedentemente riportato per A. oryzae21. Una grande eccezione è A. coremiiformis, che ha sia meno geni e un genoma notevolmente più piccolo, che lo rende unico nella sezione.

Filogenia multigene mostra l’eredità complessa di A. oryzae

In seguito abbiamo esaminato le relazioni evolutive nella sezione Flavi basato su una filogenesi derivata da 200 geni (Fig. 1a). Il supporto della ramificazione all’interno dell’albero è alto (100 su 100 bootstraps nella maggior parte dei rami). L’albero conferma che la sezione Flavi è un gruppo monofiletico. I cladi in Fig. 1a corrispondono ad un albero filogenetico precedentemente riportato basato sul gene della beta-tubulina10,11,22 e le distanze tra le sezioni corrispondono al lavoro precedente23.

Un potenziale errore nell’albero è che A. sojae si trova più vicino a A. flavus, poiché A. sojae è percepito come una versione addomesticata di A. parasiticus. Questa ramificazione infatti ha anche il più basso valore di bootstrap nell’albero. La spiegazione più probabile è che, poiché le previsioni dei geni di A. sojae sono basate sulle annotazioni del genoma di A. flavus e A. oryzae24,25 , si crea una distorsione nei geni previsti e questa distorsione si riflette probabilmente nell’albero. Come test, abbiamo generato alberi filogenetici utilizzando metodi alternativi non dipendenti dall’annotazione del gene (CVTree26,27). Questi mostrano chiaramente che A. sojae è il più vicino ad A. parasiticus, sia quando si utilizzano sequenze dell’intero genoma che del proteoma (Fig. 1 supplementare e Fig. 2 supplementare). Pensiamo quindi che A. sojae dovrebbe essere posto accanto a A. parasiticus nell’albero fitogenetico come la freccia indicata in Fig. 1a.

Inoltre, A. oryzae, percepito come una versione addomesticata di A. flavus10,28,29,30, non è direttamente accanto ad esso nell’albero. Tuttavia, è stato precedentemente suggerito che A. oryzae discende da un antenato che era l’antenato di A. minisclerotigenes o A. aflatoxiformans31. La filogenesi (Fig. 1a, zoom) supporta questo suggerimento, mostrando che A. minisclerotigenes e A. aflatoxiformans sono parenti più vicini di A. oryzae che A. flavus.

L’analisi delle proteine condivise conferma l’alta diversità genetica

Al fine di esaminare le caratteristiche fondamentali condivise da tutte le specie della sezione Flavi, i cladi, così come le caratteristiche delle singole specie, abbiamo fatto un’analisi dei geni omologhi condivisi all’interno e tra le specie16, e li abbiamo ordinati in famiglie di proteine omologhe (Fig. 2). Questo ha permesso l’identificazione di (1) Le famiglie di geni-proteine principali con almeno un membro in tutte le specie confrontate. Questo dovrebbe coprire le proteine essenziali. (2) Geni specifici della sezione e del clade che hanno omologhi in tutti i membri di un clade/sezione, ma non in altre specie. (3) Geni specie-specifici – geni che non hanno omologhi in nessuna altra specie nel confronto.

Fig. 2: geni core-specific, sezione-specific, e clade-specific e species-unique.
figura2

a Un dendrogramma che rappresenta la relazione filogenetica tra i 29 Aspergilli. Le caselle nere nei nodi rappresentano le famiglie di proteine omologhe condivise tra le specie che si diramano da quel nodo. Le caselle bianche nelle punte rappresentano le famiglie di proteine uniche per quella singola specie. b Un grafico a barre che mostra il numero di proteine totali (verde), centrali (turchese) e specie-specifiche (arancione) per ogni specie. L’ombreggiatura scura illustra il numero di proteine con almeno un’annotazione funzionale basata su InterPro32.

Il nucleo del genoma di tutte le 31 specie in questo set di dati è 2082 famiglie di proteine. Per le 29 specie di Aspergillus questo numero è 3853, e per la sola sezione Flavi costituisce 4903 famiglie di proteine. Così, più della metà del genoma della sezione Flavi varia tra le specie.

Esaminando le famiglie di proteine specifiche del clade, solo pochissime (27-54) sono trovate (Fig. 2a), che è basso rispetto alla sezione Nigri esaminata precedentemente16. Poiché le sezioni Nigri e Flavi sono approssimativamente ugualmente ricche di specie, questo potrebbe indicare che le specie della sezione Flavi sono più distinte. Questo è supportato dal fatto che il numero di geni specie-specifici sono molto alti (166-2181), dove vediamo 166 (A. sojae) essere un numero artificialmente basso, a causa della chiamata genica in questo genoma essendo basato su A. flavus e A. oryzae genomi.

I geni specie-specifici spesso codificano la regolazione e i P450

Abbiamo voluto vedere se i geni specie-specifici potevano essere collegati alle funzioni note di Flavi come la fermentazione alimentare e la patogenicità delle piante e dell’uomo. Per fare questo, abbiamo esaminato le funzioni previste dei geni specie-specifici usando le annotazioni InterPro, GO e KOG32,33,34,35. La parte con un’annotazione funzionale era bassa; 20, 12 e 9% per InterPro, GO e KOG, rispettivamente; in totale il 21% aveva un’annotazione (Figg. 3-5 supplementari). Questa è una percentuale molto alta – ma non insolita – di funzioni non identificabili.

Ci concentreremo su InterPro poiché copre più geni: le funzioni InterPro più comuni includono fattori di trascrizione, chinasi proteiche, trasportatori e P450 (Fig. 3 supplementare), che sono anche significativamente sovrarappresentati. Mentre questi tratti non possono essere direttamente collegati alla fermentazione alimentare e alla patogenicità, la regolazione è coinvolta nell’adattamento e i P450 svolgono ruoli sia nella degradazione del substrato che nella produzione di composti bioattivi, entrambi rilevanti per la patogenicità dei funghi.

I geni delle specie sono sovrarappresentati nelle regioni sub-telomeriche

È stato dimostrato che le sequenze sub-telomeriche sono regioni ampiamente riarrangiate in A. nidulans, A. oryzae, e A. fumigatus21. Questo si vede anche nei mammiferi, nei nematodi e nei lieviti36. Studi precedenti37,38 hanno mostrato che le regioni sub-telomeriche hanno un bias per i geni unici, divergenti o mancanti. Un altro studio ha dimostrato cluster di geni del metabolismo secondario (SMGCs) per essere arricchito in regioni sub-telomeriche in A. nidulans e A. fumigatus21.

Abbiamo quindi esaminato la densità genica e la posizione dei geni specie-specifici, cluster di metaboliti secondari e nucleo del genoma, utilizzando il telomero-to-telomero A. oryzae come riferimento al fine di valutare la potenziale sovrarappresentazione di questi geni nelle regioni sub-telomeriche (Fig. 3).

Fig. 3: Posizione dei geni specie-specifici e dei metaboliti secondari nel genoma di A. oryzae.
figura3

Le barre grigie rappresentano il genoma A. oryzae. Sopra il cromosoma i geni specie-specifici (turchese) e dei metaboliti secondari (arancione) sono mappati sul genoma, ogni linea rappresenta un gene. La curva mostra la percentuale della densità calcolata dal numero totale di geni entro 30 kbp a passi di 5 kb. Sotto il genoma, i geni del nucleo sono mappati dai punti grigi e la densità del numero totale di geni è mostrata dal grafico nero (con una finestra di 30 kbp).

Sia l’ispezione visiva che il test esatto di Fisher hanno confermato che sia la specie specifica (p-value = 7. 266e-07) che il SMGC sono stati mappati con il genoma.266e-07) e SMGCs (p-value < 2.2e-16) sono arricchiti verso le regioni sub-telomeriche (100 kbp dalle estremità cromosomiche), dove i geni core si trovano meno spesso nelle regioni sub-telomeriche. Il fatto che i geni specie-specifici non siano distribuiti in modo casuale, non significa che si tratti semplicemente di errori di annotazione o di modellazione genica, indicando quindi che si tratta effettivamente di geni legittimi. La distribuzione dei geni specie-specifici suggerisce che i nuovi geni sono più frequentemente incorporati con successo nelle regioni sub-telomeriche rispetto ad altre posizioni. Se questo sia il risultato di una selezione per la regione sub-telomerica, o una contro-selezione contro altre regioni, o entrambe, i dati non lo rivelano.

L’analisi della sinteticità rivela isole di contenuto genico altamente variabile

Le regioni sinteniche e non sinteniche sono un altro fattore da considerare quando si analizza la posizione del genoma. È stato dimostrato che il genoma di A. oryzae ha un modello a mosaico di regioni sinteniche e non sinteniche rispetto agli Aspergilli1,2. Abbiamo esaminato la sintonia attraverso la sezione Flavi e in A. nidulans e A. fumigatus utilizzando A. oryzae RIB40 come riferimento (Tabella 1). Questa analisi supporta la nostra precedente constatazione che A. oryzae è strettamente legato a A. aflatoxiformans rispetto a A. flavus.

Tabella 1 Percentuale di genoma con conservato synteny relativo a A. oryzae.

Una panoramica dei geni syntenic condivisi sono illustrati in Fig. 6 supplementare. In generale, ci sono meno regioni di synteny verso le estremità telomeriche come precedentemente visto1,2 in un confronto di A. nidulans, A. fumigatus, e A. oryzae. Abbiamo inoltre osservato che i cromosomi 1 e 2 hanno un grado molto alto di conservata sintonia, mentre i cromosomi 6 e 8 hanno una conservazione molto più bassa di sintonia.

Abbiamo trovato dense isole di geni non sintenici in regioni non sub-telomeriche sui cromosomi 4, 6 e 8. Questi potrebbero essere causati dal trasferimento genico orizzontale (HGT), dal rimescolamento dei geni o dalla formazione di geni de novo. Abbiamo indagato per HGTs usando BLASTp per esaminare i migliori successi nel database NCBI non ridondante. Ci si aspetta che gli HGT recenti abbiano un’alta identità di sequenza con un altro gruppo di specie da cui sarebbero stati trasferiti, e che non si trovino nelle specie strettamente correlate39. Nessuna di queste isole ha mostrato segni di HGT recenti. Inoltre, solo 23 degli 80 geni nei blocchi non-sintetici erano specifici di A. oryzae. Sembra quindi probabile che queste isole non-sinteniche siano causate da un mix di riarrangiamenti significativi, eventi di duplicazione e l’emergere di geni specifici dell’A. oryzae.

Insieme, il fatto che osserviamo alcuni cromosomi molto conservati e alcuni blocchi non-sintenici altamente riarrangiati potrebbe indicare una pressione evolutiva per la stabilità in alcune regioni mentre altre regioni sono frequentemente soggette a rimescolamenti e riarrangiamenti genici, cioè,

La sezione Flavi è una ricca fonte di enzimi attivi sui carboidrati

Gli enzimi attivi sui carboidrati (CAZymes) sono essenziali per le fonti di carbonio che una specie può degradare e utilizzare. All’interno della sezione Flavi i CAZimi/utilizzo del carbonio sono descritti principalmente per A. oryzae1,2,40 e in misura minore per A. flavus41,42,43,44,45 e A. sojae46,47, mentre solo studi incidentali sono stati eseguiti con altre specie di questo gruppo48,49,50,51,52,53,54, spesso descrivendo la produzione o la caratterizzazione di una certa attività o proteina CAZyme, rispettivamente.

Abbiamo usato il database CAZy per prevedere il contenuto CAZyme nei genomi della sezione (Fig. 4). Un totale di 13.759 CAZymes sono stati predetti per le 23 specie Flavi (media 598/specie). Questo è abbastanza ricco rispetto agli Aspergilli di riferimento inclusi (508/specie).

Fig. 4: Enzimi attivi sui carboidrati (CAZimi) nella sezione Flavi.
figura4

a Il numero totale di CAZimi in ogni specie distribuito su sei categorie di attività enzimatica: attività ausiliarie, molecole leganti i carboidrati, esterasi dei carboidrati, idrolasi dei glicosidi, glicosiltransferasi e lisasi dei polisaccaridi. b Boxplot che rappresenta la diversità del contenuto e dell’abbondanza della famiglia CAZyme tra il clade A. flavus (azzurro), A. tamarii (giallo), A. nomius (blu scuro), A. alliaceus (turchese chiaro), il resto della sezione Flavi (arancione), altri Aspergilli (turchese scuro), e specie non-Aspergillus (grigio). Per ogni classe di CAZyme viene visualizzato il numero totale di CAZyme (riga superiore) e il numero di famiglie uniche di CAZyme (riga inferiore). Nel boxplot la linea mediana rappresenta la mediana, il limite superiore e inferiore della scatola rappresenta il terzo e il primo quartile, e i baffi si estendono fino a 1,5 volte l’interquartile.

È chiaro da questa analisi che c’è una netta differenza tra i cladi della sezione Flavi (Fig. 4b), mostrando di nuovo una variazione nel contenuto genico nella sezione.

Il contenuto variabile di CAZyme non riflette la capacità di degradare la biomassa vegetale

Per valutare l’effettiva capacità di utilizzo del carbonio nella sezione Flavi, abbiamo eseguito il profilo di crescita di 31 specie (29 Aspergilli, comprese 23 specie della sezione Flavi) su 35 substrati correlati alla biomassa vegetale (Fig. 5, Dati supplementari 1) e l’abbiamo confrontato con la previsione del contenuto del gene CAZyme relativo alla degradazione della biomassa vegetale (Dati supplementari 2). In uno studio precedente, la variazione di crescita tra Aspergilli lontanamente imparentati potrebbe essere legata a differenze nel contenuto di geni CAZyme55, ma questo non è stato il caso per le specie più vicine correlate di Aspergillus sezione Nigri16.

Fig. 5: Enzimi carboidrati-attivi nella sezione Flavi ordinati secondo il filogramma di Fig. 1.
figura5

a Heatmap che rappresenta i profili di crescita di 23 specie Flavi e 8 specie aggiuntive su 35 diversi terreni. b Confronto dei set di CAZyme relativi alla degradazione della biomassa vegetale nei genomi delle specie di Aspergillus sezione Flavi, e alcuni altri funghi. I colori riflettono i polisaccaridi verso cui gli enzimi sono attivi.

Il glucosio ha prodotto la migliore crescita di tutti i monosaccaridi per tutte le specie ed è stato quindi utilizzato come riferimento interno per la crescita (Fig. 7 supplementare). La crescita su altre fonti di carbonio è stata confrontata con la crescita su d-glucosio e questa differenza relativa è stata confrontata tra le specie. La crescita su monosaccaridi è stata in gran parte simile tra le specie della sezione Flavi (Fig. 5, Fig. 7 supplementare e Dati supplementari 1).

I set di geni CAZyme relativi alla degradazione della biomassa vegetale sono nel complesso molto simili per la sezione Flavi (Fig. 5), ad eccezione di A. coremiiformis, che ha un set di geni fortemente ridotto. Ciò è dovuto principalmente alla riduzione delle famiglie di glicosidi idrolasi, ma anche ad un certo numero di famiglie legate alla degradazione di pectina, xilano e xiloglucano. Sorprendentemente, questa specie ha mostrato una migliore crescita relativa su xilano rispetto alla maggior parte delle altre specie, mentre la crescita su altri polisaccaridi era principalmente simile a quella della sezione Flavi. Quindi, il set di geni ridotto non ha ridotto la sua capacità di degradare la biomassa vegetale. Questo potrebbe essere simile al caso di T. reesei, che ha anche un set di geni CAZyme ridotto, ma produce gli enzimi corrispondenti a livelli molto alti56. Tuttavia, l’origine di questo approccio è probabilmente molto diversa, in quanto il suo contenuto di CAZyme è stato modellato dalla perdita e poi dal guadagno massiccio HGT di enzimi di degradazione della parete cellulare delle piante57, mentre nessuna indicazione di questo è presente per A. coremiiformis.

Le differenze idrolitiche sono clade-specifiche all’interno della sezione Flavi (Dati supplementari 2). Il clade A. togoensis ha una serie ridotta di geni xilanolitici e xiloglucanolitici, ma questo non si riflette nella crescita. Al contrario, i geni GH115 (alfa-glucuronidasi) sono espansi nei cladi A. flavus, A. tamarii, e A. nomius (enzimi xilanolitici o attività sono stati riportati da diverse specie di questi cladi49,50,51,53,58,59,60,61,62), GH62 (arabinoxylan arabinofuranoidrolasi) è stato ampliato nel clade A. leporis, e i cladi A. leporis e A. avenaceus erano gli unici cladi con CE15 (glucuronoil esterasi), che sono stati trovati anche in specie di Aspergillus al di fuori della sezione Flavi.

La capacità di degradare il galattomannano era quasi completamente conservata nella sezione Flavi, ma è interessante notare che la crescita sulla gomma di guar che consiste principalmente di galattomannano era variabile tra le specie. Allo stesso modo, la ridotta capacità amilolitica dei cladi A. togoensis e A. avenaceus non si è tradotta in una crescita ridotta su amido o maltosio.

Variazione è stata osservata nel numero di geni pectinolitici. Le differenze più pronunciate erano l’assenza dei geni PL11 (rhamnogalacturonan lyase) dalla maggior parte delle specie della sezione Flavi, e l’espansione di GH78 (alfa-rhamnosidasi) nei cladi A. flavus e A. tamarii. Tuttavia, queste differenze e quelle più piccole in altre famiglie non hanno portato a grandi variazioni nella crescita sulla pectina.

Differenze più evidenti erano presenti durante la crescita su cellobiosio, lattosio e lignina. La maggior parte delle specie è cresciuta male sul cellobiosio, nonostante un numero simile di geni codificanti la beta-glucosidasi nella maggior parte delle specie (dati supplementari 2). Allo stesso modo, solo A. arachidicola, e in misura minore A. albertensis cresceva bene sul lattosio, mentre il numero di beta-galattosidasi in queste specie è simile a quello delle altre specie. La cosa più interessante è stata la scoperta che A. albertensis è cresciuta altrettanto bene sulla lignina quanto sul d-glucosio, suggerendo potenziali applicazioni nella produzione di biocarburanti.

In sintesi, il potenziale CAZyme nella sezione Flavi è ampiamente conservato (con l’eccezione di A. coremiiformis) con alcune variazioni nel numero di copie, ma il potenziale genomico e le variazioni non sono necessariamente riflessi nella crescita. È quindi probabile che, come suggerito in precedenza55, le differenze osservate sono in gran parte a livello normativo.

La famiglia CAZyme GH28 è gonfiata nel clade A. flavus

Siamo stati particolarmente interessati a GH28 CAZymes, come sono importanti per la fermentazione alimentare e la qualità del prodotto finale fermentato63. Un albero filogenetico è stato creato di tutti i membri di GH28 dalla sezione Flavi (Fig. 8 supplementare). L’albero consiste di 429 proteine, in media 18,7 per specie.

All’interno dell’albero ci sono diversi raggruppamenti. Cinque gruppi hanno membri da tutte le 23 specie, nove gruppi mancano da una a quattro specie (di solito A. coremiiformis e A. caelatus), e due gruppi sono specifici dei cladi A. flavus, A. tamarii e A. nomius. Infine ci sono otto gruppi contenenti 2-13 specie, che non seguono la filogenesi, suggerendo che questi siano fonti di variazione GH28.

In generale, le specie del clade A. flavus hanno un alto numero di membri GH28. A. sojae è noto per avere un alto numero di GH28, che è anche visto qui con 24 membri; tuttavia, A. sergii ha un numero ancora maggiore con 25 membri. Potrebbe essere interessante investigare se questo potrebbe essere sfruttato usando A. sergii come una nuova specie nella fermentazione alimentare e/o come fonte di nuovi enzimi.

Analisi del metabolismo secondario

Il genere Aspergillus è noto per produrre un gran numero di SM e il numero di SMGC previsti è ancora più alto. La maggior parte delle SMGC previste non sono caratterizzate e quindi hanno il potenziale per produrre una diversità di nuovi composti bioattivi. Abbiamo esaminato la diversità e il potenziale per la produzione di SM nella sezione Flavi, sia quantitativamente in termini di numero di cluster, sia qualitativamente in termini di composti che questi cluster potrebbero potenzialmente produrre.

Il metabolismo secondario nella sezione Flavi è vario e prolifico

Per valutare quantitativamente il potenziale per la produzione di SM, gli SMGC sono stati predetti utilizzando uno strumento di predizione simile a SMURF64 per tutte le specie tranne N. crassa e A. sojae, poiché queste sono state sequenziate con altri metodi e con metodi di chiamata genica dissimili (Fig. 6c). All’interno delle 28 specie di Aspergillus, c’è un totale di 1972 SMGC predetti e per i genomi della sezione Flavi, il totale è 1606 SMGC (73/specie). Questo è più di 15 in più per specie rispetto al molto prolifico genere Penicillium65.

Fig. 6: Dereplicazione dei composti noti e dei geni predetti della dorsale del metabolita secondario per specie.
figura6

a Un dendrogramma che rappresenta la relazione filogenetica tra le specie. Le caselle nere nei nodi rappresentano le famiglie di gruppi di geni di metaboliti secondari (SMGC) condivise tra le specie che si ramificano da quel nodo. Se non c’è nessuna casella nera ci sono zero cluster condivisi. Le caselle grigie alle estremità mostrano il numero di famiglie SMGC uniche trovate solo in una specie per la sezione Flavi. b Matrice che indica la presenza e l’assenza di famiglie SMGC accoppiate a cluster noti dal database MIBiG66 per ogni specie. Panoramica della famiglia di cluster per l’aflatossina può essere trovato in Figura supplementare 11. c geni di metaboliti secondari previsti per ogni specie divisi per l’enzima backbone. DMAT: dimetililtransferasi (prenil transferasi), HYBRID: un gene backbone contenente domini da NRPS e PKS backbone, NRPS: non-ribosomal peptide sintetasi, NRPS-like: non-ribosomal peptide synthetase like, contenente almeno due domini NRPS-specifici e un altro dominio o un dominio NRPS A in combinazione con il dominio NAD binding 4 o una deidrogenasi a catena corta, PKS: polyketide synthase, PKS-like: polyketide synthase like, contenente almeno due domini PKS-specifici e un altro dominio, TC: terpene cyclase.

Abbiamo voluto esaminare quanto siano uniche le SMGC, e quindi abbiamo costruito famiglie di SMGC (dati supplementari 3). Per l’intero set di dati, abbiamo potuto collassare in 477 famiglie SMGC, e per la sezione Flavi 308 famiglie SMGC. Di questi, 150 cluster SMGC si trovano solo in una specie della sezione Flavi (Fig. 6a), mostrando un gran numero di cluster unici in ogni specie (6,8 SMGC unici/specie). Rispetto ad Aspergillus sezione Nigri, il numero di cluster per specie in questo studio è leggermente inferiore, ma il numero di membri in ogni famiglia SMGC è anche inferiore, dimostrando una maggiore diversità nel metabolismo secondario nella sezione Flavi rispetto alla sezione Nigri.

La dereplicazione del metabolismo secondario predice i produttori di tossine

Per valutare qualitativamente il potenziale di produzione di SM, abbiamo usato una pipeline di “dereplicazione genetica” in cui i cluster predetti sono associati a cluster caratterizzati verificati (dal database MIBiG66) in un metodo di associazione per colpa67. Su questa base, 20 famiglie di cluster sono state associate a una famiglia composta (Fig. 6b). Alcune famiglie di cluster sono state trovate in tutti o quasi tutti i genomi Flavi, ad esempio quelle simili ai cluster di naftopirone68, nidulanina A69, azanigerone70, 4,4′-piperazina-2,5-diildimetil-bis-fenolo, e aflavarina71/endocrocina72,73. La maggior parte delle famiglie segue generalmente i gruppi filogenetici, suggerendo un modello di distribuzione basato sulla perdita, ma alcune, come le famiglie SMGC simili ai cluster dell’asperfuranone74, della pseurotina A75, o della fumagillina76 non hanno seguito la filogenesi. Inoltre, sono stati identificati potenziali produttori di tossine note come l’aflatossina e l’aspiroclorina (Fig. 6b).

La combinazione di dati e analisi collega un composto a un cluster

Estendendo dai cluster SMGC noti, eravamo interessati a collegare composti e cluster in base al modello di presenza/assenza di composti prodotti e cluster previsti. Abbiamo quindi creato una heatmap di tutte le famiglie di cluster trovate in almeno cinque specie, aggiunto le famiglie di composti previste dalla dereplicazione MIBiG, oltre alle famiglie di composti curate manualmente da un’indagine della letteratura (Fig. 9 supplementare). Inoltre, abbiamo misurato la produzione di SM delle specie Flavi (Dati supplementari 4).

Di particolare interesse erano i miyakamidi. Sono stati originariamente isolati da un isolato di A. flavus e hanno dimostrato di avere proprietà antibiotiche77, ma il cluster di geni biosintetici non è noto. La nostra analisi chimica ha mostrato la produzione in A. sojae, A. nomius, A. parasiticus, A. novoparasiticus, e A. transmontanensis.

Abbiamo eseguito la retro-biosintesi dalla struttura chimica e abbiamo previsto che il cluster di geni biosintetici dovrebbe contenere una nonribosomal peptide sintetasi (NRPS) con 2-3 domini di adenilazione (poiché due dei tre amminoacidi sono simili), una N-metiltransferasi, una acetiltransferasi, e potenzialmente una decarbossilasi/deidrogenasi (Fig. 10A supplementare). Cercando famiglie di cluster con membri in tutte le specie produttrici di miyakamide che hanno backbone NRPS con 2-3 domini di adenilazione e un dominio metiltransferasi, solo una famiglia di cluster ha soddisfatto i requisiti. La famiglia cluster ha un backbone NRPS con un dominio di metiltransferasi, tre domini A nella maggior parte delle specie e due in A. novoparasiticus. La previsione di solo due domini A è molto probabilmente causata da un errore di annotazione, poiché la somiglianza di sequenza è conservata prima dell’inizio del gene (Fig. 10B supplementare). La dimensione del cluster previsto è di 1-9 geni, la differenza è probabilmente causata da errori di predizione SMGC (plot di sintenia in Fig. 10B supplementare). Il diagramma di sintenia mostra che l’NRPS e due piccoli geni con funzione sconosciuta sono ampiamente conservati. Proponiamo quindi che l’NRPS identificato insieme ai due geni conservati con funzione sconosciuta siano probabili candidati per la biosintesi della miyakamide.

Il cluster di geni biosintetici dell’aflatossina è altamente conservato

Perché il metabolita secondario più conosciuto nella sezione Flavi è l’aflatossina altamente cancerogena. Le aflatossine sono note per essere prodotte da molte specie della sezione Flavi (A. arachidicola, A. luteovirescens, A. flavus, A. minisclerotigenes, A. nomius, A. aflatoxiformans, A. pseudocaelatus, A. pseudonomius, A. pseudotamarii, e alcuni isolati di A. oryzae)4,10.

L’analisi di dereplicazione (Fig. 6b) ha identificato una famiglia SMGC prevista per essere coinvolta nella produzione di sterigmatociste e aflatossine, che è tutte le specie nei cladi A. flavus, A. nomius, e A. tamarii tranne A. tamarii. Un diagramma di sintenia della famiglia SMGC (Fig. 11 supplementare) mostra che il cluster è estremamente ben conservato, senza riarrangiamenti e con un’alta identità di allineamento per i geni dell’aflatossina. Solo A. caelatus ha una forma troncata con solo i geni aflB, aflC e aflD e A. tamarii sembra avere una perdita completa del cluster. È interessante notare che la maggior parte dei cluster previsti non include i geni aflP e aflQ che sono responsabili dell’ultima fase della biosintesi delle aflatossine. Abbiamo cercato i genomi per aflP (Fig. 12 supplementare), e l’abbiamo trovato in tutti i genomi, ma con diversi siti di inizio e una sequenza extra nel mezzo delle proteine. I dati di RNA-seq supportano questi modelli (Fig. 13 supplementare) e suggeriscono errori nei modelli di geni di A. flavus. Allo stesso modo, il gene aflQ si trova in tutte le altre specie, ma a 5-10 geni di distanza dai cluster previsti. Quindi, l’analisi dettagliata mostra che tutte queste specie hanno i geni richiesti per la biosintesi delle aflatossine.