A comparative genomics study of 23 Aspergillus species from section Flavi

Assessment of 19 newly sequenced section Flavi genomes

In deze studie presenteren we de genoom-sequenties van 19 soorten uit Aspergillus section Flavi (Fig. 1b). Twee hiervan (A. nomius en A. arachidicola18,19) werden parallel aan dit werk ook door andere groepen gepubliceerd. We vergelijken deze 19 met eerder gesequenteerde sectie Flavi-soorten (A. oryzae, A. flavus, A. sojae, en A. luteovirescens3,12,13,14) en acht referentiesoorten: zes uit de rest van het genus Aspergillus plus Neurospora crassa en Penicillium digitatum als outgroups (Fig. 1a, b).

Fig. 1: Fylogenie en genoomstatistieken van de sectie Flavi plus acht andere Aspergillus-, Penicillium- en Neurospora-soorten.
figure1

a Fylogenetische boom geconstrueerd met RAxML, MUSCLE en Gblocks op basis van 200 monocore-genen (een enkel homoloog in elk van de soorten). De rode ster geeft een onzeker blad aan, waarschijnlijk veroorzaakt door een andere gen-aanroepmethode98,99,100, en de pijl geeft aan waar A. sojae in de fylogenetische boom geplaatst zou moeten worden. De zoom toont de vertakking in een clade rond A. oryzae. b De kleuren illustreren de clades gevonden binnen sectie Flavi en X wijst op soorten gesequeneerd in deze studie. Eerder gesequenseerde genomen zoals A. oryzae en A. fumigatus werden geassembleerd met behulp van optische kartering en genetische kaarten. c Zeven bubbelplots die de belangrijkste genoomnummers en sequencing-kwaliteitsparameters illustreren. De grootte van de bubbels is aangepast aan elk panel en is niet vergelijkbaar tussen de panels.

Als eerste basistest werd de kwaliteit van de genoomassemblages vergeleken op basis van genoomgrootte, GC-gehalte, en aantal voorspelde eiwitten (Fig. 1c). Hieruit bleek een redelijke ontwerp-genoomkwaliteit met 13 van de 18 genomen geassembleerd in minder dan 500 scaffolds (Fig. 1c, kolom 5). Een reden tot ongerustheid was A. coremiiformis met 2728 scaffolds, waardoor wij ons zorgen maakten over de kwaliteit van de geninhoud. Het genoom omvat echter 99,78% van de Benchmarking Universal Single-Copy Orthologs (BUSCO20), en 96% van de clusters van express sequence tags (EST) kunnen aan het genoom worden gekoppeld. We concluderen dus dat de genoomannotatie van voldoende hoge kwaliteit is voor vergelijkingen van de geninhoud, ondanks het grote aantal scaffolds.

Sectie Flavi-soorten hebben over het algemeen uitgebreide genomen

De genoomgrootte van Aspergillus sectie Flavi is over het algemeen groot in vergelijking met andere representatieve Aspergilli (gemiddeld 37,96 Mbp vs. 31,7 Mbp (Fig. 1c)), zoals eerder werd gerapporteerd voor A. oryzae21. Een belangrijke uitzondering is A. coremiiformis, die zowel minder genen als een aanzienlijk kleiner genoom heeft, waardoor het uniek is in de sectie.

Multigene fylogenie toont complexe erfenis van A. oryzae

Verder onderzochten we de evolutionaire relaties in sectie Flavi op basis van een fylogenie afgeleid van 200 genen (Fig. 1a). De ondersteuning van de vertakkingen binnen de boom is hoog (100 van de 100 bootstraps in de meeste takken). De boom bevestigt dat sectie Flavi een monofyletische groep is. De clades in Fig. 1a komen overeen met een eerder gerapporteerde fylogenetische boom gebaseerd op het beta-tubuline gen10,11,22 en de afstanden tussen de secties komen overeen met eerder werk23.

Een mogelijke fout in de boom is dat A. sojae het dichtste bij A. flavus wordt gevonden, aangezien A. sojae wordt gezien als een gedomesticeerde versie van A. parasiticus. Deze vertakking heeft inderdaad ook de laagste bootstrapwaarde in de boom. De meest waarschijnlijke verklaring is dat, aangezien de genvoorspellingen voor A. sojae gebaseerd zijn op de genoomannotaties van A. flavus en A. oryzae24,25, er een bias ontstaat in de voorspelde genen en deze bias wordt waarschijnlijk weerspiegeld in de boom. Bij wijze van test hebben wij fylogenetische bomen gegenereerd met behulp van alternatieve methoden die niet afhankelijk zijn van genannotatie (CVTree26,27). Deze laten duidelijk zien dat A. sojae het dichtst bij A. parasiticus staat, zowel bij gebruik van genoom- als proteoomsequenties (supplementaire fig. 1 en supplementaire fig. 2). Wij menen dan ook dat A. sojae in de fyogenetische boom naast A. parasiticus moet worden geplaatst, zoals de pijl aangeeft in Fig. 1a.

Daarnaast staat A. oryzae, die wordt gezien als een gedomesticeerde versie van A. flavus10,28,29,30, er niet direct naast in de boom. Eerder is echter gesuggereerd dat A. oryzae afstamt van een voorouder die de voorouder was van A. minisclerotigenes of A. aflatoxiformans31. De fylogenie (Fig. 1a, zoom) ondersteunt deze suggestie en toont aan dat A. minisclerotigenes en A. aflatoxiformans nauwere verwanten zijn van A. oryzae dan A. flavus.

Analyse van gedeelde eiwitten bevestigt hoge genetische diversiteit

Om kernkenmerken te onderzoeken die alle sectie Flavi soorten en clades delen, alsmede kenmerken van individuele soorten, hebben we een analyse gemaakt van gedeelde homologe genen binnen en tussen soorten16, en deze gesorteerd in homologe eiwitfamilies (Fig. 2). Dit maakte de identificatie mogelijk van (1) De kern genoom-eiwit families met ten minste één lid in alle vergeleken soorten. Verwacht wordt dat deze families essentiële eiwitten omvatten. (2) Sectie- en cladspecifieke genen – genen die homologe genen hebben in alle leden van een clade/sectie, maar niet in een andere soort. (3) Soortspecifieke genen-genen zonder homologe genen in een andere soort in de vergelijking.

Fig. 2: Kernspecifieke, sectie-specifieke, en clade-specifieke en soortspecifieke genen.
figure2

a Een dendrogram dat de fylogenetische verwantschap tussen de 29 Aspergilli weergeeft. De zwarte vakjes in de knooppunten stellen de homologe eiwitfamilies voor die gedeeld worden door de soorten die zich vanuit dat knooppunt vertakken. De witte vakjes aan de uiteinden stellen de eiwitfamilies voor die uniek zijn voor die individuele soort. b Een staafdiagram met het aantal totale (groen), kern (turkoois) en soortspecifieke (oranje) eiwitten voor elke soort. De donkere arcering illustreert het aantal eiwitten met ten minste één functionele annotatie op basis van InterPro32.

Het kerngenoom van alle 31 soorten in deze dataset bedraagt 2082 eiwitfamilies. Voor de 29 Aspergillus-soorten bedraagt dit aantal 3853, en voor de sectie Flavi-soorten alleen al 4903 eiwitfamilies. Aldus varieert meer dan de helft van het genoom van de sectie Flavi soorten.

Bij onderzoek van de clade-specifieke eiwitfamilies worden er slechts zeer weinig (27-54) gevonden (Fig. 2a), hetgeen weinig is vergeleken met de eerder onderzochte sectie Nigri16. Aangezien de secties Nigri en Flavi ongeveer even soortenrijk zijn, zou dit erop kunnen wijzen dat de soorten in sectie Flavi meer verschillend zijn. Dit wordt ondersteund door het feit dat het aantal soortspecifieke genen zeer hoog is (166-2181), waarbij we 166 (A. sojae) als een kunstmatig laag getal beschouwen, omdat de genenoproep in dit genoom gebaseerd is op A. flavus en A. oryzae genomen.

Soort-specifieke genen coderen vaak voor regulatie en P450s

We wilden zien of de soort-specifieke genen in verband konden worden gebracht met bekende Flavi-functies zoals voedselfermentatie en plant- en menselijke pathogeniteit. Om dit te doen, onderzochten we de voorspelde functies van de soortspecifieke genen met behulp van InterPro, GO en KOG annotaties32,33,34,35. Het aandeel met een functionele annotatie was laag; 20, 12, en 9% voor respectievelijk InterPro, GO, en KOG; in totaal had 21% een annotatie (supplementaire Figs. 3-5). Dit is een zeer hoog – maar niet ongebruikelijk – percentage van niet-identificeerbare functies.

We zullen ons richten op InterPro, omdat dit meer genen omvat: de meest voorkomende InterPro-functies omvatten transcriptiefactoren, proteïnekinases, transporters, en P450s (Supplementary Fig. 3), die ook significant oververtegenwoordigd zijn. Hoewel deze eigenschappen niet direct in verband kunnen worden gebracht met voedselfermentatie en pathogeniteit, is regulatie betrokken bij aanpassing en spelen P450’s rollen in zowel substraatafbraak als productie van bioactieve verbindingen, die beide relevant zijn voor schimmelpathogeniciteit.

Soorten genen zijn oververtegenwoordigd in sub-telomerische regio’s

Het is aangetoond dat de sub-telomerische sequenties uitgebreid herschikte regio’s zijn in A. nidulans, A. oryzae, en A. fumigatus21. Dit wordt ook gezien bij zoogdieren, nematoden en gisten36. Eerdere studies37,38 toonden aan dat subtelomere regio’s een bias hebben voor unieke, afwijkende of ontbrekende genen. Een andere studie heeft aangetoond dat secundaire metabolietgenclusters (SMGC’s) verrijkt zijn in subtelomere regio’s in A. nidulans en A. fumigatus21.

Wij hebben daarom de gendichtheid en de locatie van soortspecifieke genen, secundaire metabolietclusters en kerngenoom onderzocht, door het telomeer-tot-telomeer genoom van A. oryzae-genoom als referentie te gebruiken om de mogelijke oververtegenwoordiging van deze genen in de subtelomere regio’s te beoordelen (fig. 3).

Fig. 3: Locatie van soortspecifieke en secundaire metabolietgenen in het A. oryzae-genoom.
figure3

De grijze balken geven het A. oryzae-genoom weer. Boven het chromosoom zijn de soortspecifieke (turkoois) en secundaire metabolietgenen (oranje) in kaart gebracht; elke lijn vertegenwoordigt een gen. De curve toont het percentage van de dichtheid berekend uit het totale aantal genen binnen 30 kbp in stappen van 5 kb. Onder het genoom worden de kerngenen in kaart gebracht door de grijze stippen en de dichtheid van het totale aantal genen wordt weergegeven door de zwarte grafiek (met een venster van 30 kbp).

Zowel visuele inspectie als Fisher’s exacte test bevestigden dat zowel de soortspecifieke (p-waarde = 7.266e-07) en SMGC’s (p-waarde < 2.2e-16) verrijkt zijn in de richting van de sub-telomerische regio’s (100 kbp van de chromosomale uiteinden), waar kerngenen minder vaak in de sub-telomerische regio’s worden aangetroffen. Het feit dat de soortspecifieke genen niet willekeurig verdeeld zijn, pleit tegen het feit dat ze gewoon annotatie- of genmodelleringsfouten zijn, en wijst er dus op dat het wel degelijk om legitieme genen gaat. De verdeling van de soortspecifieke genen suggereert dat nieuwe genen vaker met succes in de subtelomerische regio’s worden opgenomen dan op andere plaatsen. Of dit het resultaat is van een selectie voor de sub-telomerische regio, of een tegen-selectie tegen andere regio’s, of beide, blijkt niet uit de gegevens.

Synteny-analyse onthult eilanden van zeer variabele geninhoud

Syntenische en niet-syntenische regio’s zijn een andere factor die in overweging moet worden genomen bij het analyseren van de plaats van het genoom. Er is aangetoond dat het genoom van A. oryzae een mozaïekpatroon van syntenische en niet-syntenische regio’s vertoont ten opzichte van ver verwante Aspergilli1,2. Wij onderzochten de syntenie in de sectie Flavi en in A. nidulans en A. fumigatus met A. oryzae RIB40 als referentie (tabel 1). Deze analyse ondersteunt onze eerdere bevinding dat A. oryzae nauwer verwant is aan A. aflatoxiformans dan A. flavus.

Tabel 1 Percentage van het genoom met geconserveerde syntenie ten opzichte van A. oryzae.

Een overzicht van gedeelde syntenische genen wordt geïllustreerd in supplementair Fig. 6. In het algemeen zijn er minder regio’s van syntenie in de richting van de telomere uiteinden zoals eerder gezien1,2 in een vergelijking van A. nidulans, A. fumigatus, en A. oryzae. We hebben verder waargenomen dat chromosomen 1 en 2 een zeer hoge mate van geconserveerde syntenie hebben, terwijl chromosomen 6 en 8 een veel lagere conservering van syntenie hebben.

We vinden dichte eilanden van niet-syntenische genen in niet-sub-telomere gebieden op chromosomen 4, 6, en 8. Deze zouden veroorzaakt kunnen zijn door horizontale genoverdracht (HGT), gen shuffling, of de novo genvorming. Wij onderzochten HGTs met behulp van BLASTp om de beste hits in de NCBI niet-redundante database te onderzoeken. Van recente HGT’s wordt verwacht dat ze een hoge sequentie-identiteit hebben met een andere soortgroep van waaruit ze zouden zijn overgebracht, en niet worden aangetroffen in de nauw verwante soorten39. Geen van deze eilanden vertoonde tekenen van recente HGT’s. Bovendien waren slechts 23 van de 80 genen in de niet-syntenische blokken A. oryzae-specifiek. Het lijkt dus waarschijnlijk dat deze niet-syntenische eilanden veroorzaakt zijn door een mix van significante herschikkingen, duplicatiegebeurtenissen en het ontstaan van A. oryzae-specifieke genen.

Tezamen zou het feit dat we enkele zeer geconserveerde chromosomen en enkele sterk herschikte niet-syntenische blokken waarnemen, kunnen wijzen op een evolutionaire druk voor stabiliteit in sommige regio’s, terwijl andere regio’s vaak onderhevig zijn aan genverschuivingen en herschikkingen, d.w.z.,

Sectie Flavi is een rijke bron van koolhydraat-actieve enzymen

Koolhydraat-actieve enzymen (CAZymes) zijn essentieel voor welke koolstofbronnen een soort kan afbreken en benutten. Binnen de sectie Flavi is het CAZymes/koolstofgebruik vooral beschreven voor A. oryzae1,2,40 en in mindere mate voor A. flavus41,42,43,44,45 en A. sojae46,47, terwijl slechts incidentele studies zijn uitgevoerd met andere soorten van deze groep48,49,50,51,52,53,54, waarbij vaak de productie of karakterisering van respectievelijk een bepaalde CAZyme-activiteit of een bepaald CAZyme-eiwit werd beschreven.

We gebruikten de CAZy-database om het CAZyme-gehalte in de genomen van de sectie te voorspellen (Fig. 4). Een totaal van 13.759 CAZymen werden voorspeld voor de 23 Flavi soorten (gemiddeld 598/soort). Dit is vrij veel in vergelijking met de opgenomen referentie Aspergilli (508/soort).

Fig. 4: Koolhydraat-actieve enzymen (CAZymen) in sectie Flavi.
figure4

a Het totale aantal CAZymen in elke soort, verdeeld over zes categorieën enzymactiviteit: hulpactiviteiten, koolhydraatbindende moleculen, koolhydraatesterasen, glycosidehydrolasen, glycosyltransferasen, en polysaccharidelyasen. b Boxplot die de diversiteit weergeeft van CAZyme familie inhoud en abundantie tussen de clade A. flavus (lichtblauw), A. tamarii (geel), A. nomius (donkerblauw), A. alliaceus (licht turkoois), de rest van de Flavi sectie (oranje), andere Aspergilli (donker turkoois), en niet-Aspergillus soorten (grijs). Voor elke CAZyme klasse wordt het totaal aantal CAZymen (bovenste rij) en het aantal unieke CAZyme families (onderste rij) weergegeven. In de boxplot vertegenwoordigt de middellijn de mediaan, de boven- en ondergrens van de box het derde en eerste kwartiel, en de whiskers strekken zich uit tot 1,5 maal het interkwartiel.

Uit deze analyse blijkt duidelijk dat er een duidelijk verschil is tussen de clades van sectie Flavi (Fig. 4b), waaruit opnieuw een variatie in geninhoud in de sectie blijkt.

Variabel CAZyme-gehalte weerspiegelt niet het vermogen om plantaardige biomassa af te breken

Om het werkelijke vermogen tot koolstofgebruik in sectie Flavi te evalueren, voerden we groeiprofielen uit van 31 soorten (29 Aspergilli, waaronder 23 soorten uit sectie Flavi) op 35 plantaardige biomassa-gerelateerde substraten (Fig. 5, supplementaire data 1) en vergeleken dit met de CAZyme-geninhoudsvoorspelling gerelateerd aan de afbraak van plantaardige biomassa (supplementaire data 2). In een eerdere studie kon de variatie in groei tussen ver verwante Aspergilli in verband worden gebracht met verschillen in CAZyme geninhoud55 , maar dit was niet het geval voor nauwer verwante soorten uit Aspergillus sectie Nigri16.

Fig. 5: Koolhydraat-actieve enzymen in sectie Flavi, gesorteerd volgens het fylogram van Fig. 1.
figure5

a Heatmap die de groeiprofielen weergeeft van 23 Flavi-soorten en 8 bijkomende soorten op 35 verschillende media. b Vergelijking van de CAZyme-reeksen met betrekking tot de afbraak van plantaardige biomassa in de genomen van soorten van Aspergillus sectie Flavi, en enkele andere schimmels. De kleuren geven aan op welke polysacchariden de enzymen actief zijn.

Glucose resulteerde in de beste groei van alle monosacchariden voor alle soorten en werd daarom gebruikt als een interne referentie voor groei (aanvullende Fig. 7). Groei op andere koolstofbronnen werd vergeleken met groei op d-glucose en dit relatieve verschil werd vergeleken tussen de soorten. Groei op monosacchariden was grotendeels vergelijkbaar tussen de soorten van sectie Flavi (Fig. 5, aanvullende Fig. 7, en aanvullende gegevens 1).

De CAZyme sets gerelateerd aan de afbraak van plantaardige biomassa zijn over het algemeen zeer vergelijkbaar voor sectie Flavi (Fig. 5), met uitzondering van A. coremiiformis, die een sterk gereduceerde genenset heeft. Dit is vooral te wijten aan de vermindering van families van glycosidehydrolasen, maar ook van een aantal families die verband houden met de afbraak van pectine, xylan en xyloglucan. Verrassend genoeg vertoonde deze soort een betere relatieve groei op xylan dan de meeste andere soorten, terwijl de groei op andere polysacchariden voornamelijk vergelijkbaar was met die van sectie Flavi. De verminderde genenset heeft het vermogen van deze soort om plantaardige biomassa af te breken dus niet verminderd. Dit zou vergelijkbaar kunnen zijn met het geval van T. reesei, die ook een gereduceerde CAZyme-genenset heeft, maar de overeenkomstige enzymen in zeer hoge concentraties produceert56. De oorsprong van deze benadering is echter waarschijnlijk heel anders, aangezien zijn CAZyme-gehalte is gevormd door verlies en vervolgens massale HGT-toename van plantaardige celwandafbrekende enzymen57, terwijl hiervoor geen aanwijzingen zijn voor A. coremiiformis.

Hydrolytische verschillen zijn clade-specifiek binnen sectie Flavi (Aanvullende gegevens 2). De A. togoensis clade heeft een gereduceerde set van xylanolytische en xyloglucanolytische genen, maar dit wordt niet weerspiegeld in de groei. Daarentegen zijn de genen voor GH115 (alfaglucuronidase) uitgebreid in de clades A. flavus, A. tamarii en A. nomius (xylanolytische enzymen of activiteit zijn gerapporteerd van verschillende soorten uit deze clades49,50,51,53,58,59,60,61,62), GH62 (arabinoxylan arabinofuranohydrolase) is uitgebreid in de clade A. leporis, en de clades A. leporis en A. avenaceus waren de enige clades met CE15 (glucuronoyl esterases), die ook werden aangetroffen bij Aspergillus-soorten buiten sectie Flavi.

Het galactomannaan-afbrekend vermogen was bijna volledig geconserveerd in sectie Flavi, maar interessant genoeg was de groei op guargom dat voornamelijk uit galactomannaan bestaat, variabel tussen de soorten. Evenzo resulteerde het verminderde amylolytische vermogen van de clades A. togoensis en A. avenaceus niet in verminderde groei op zetmeel of maltose.

Variatie werd waargenomen in het aantal pectinolytische genen. De meest uitgesproken verschillen waren de afwezigheid van PL11 (rhamnogalacturonan lyase) genen bij de meeste soorten van de sectie Flavi, en de uitbreiding van GH78 (alpha-rhamnosidase) in de clades A. flavus en A. tamarii. Deze verschillen en de kleinere verschillen in andere families leidden echter niet tot grote variatie in groei op pectine.

Duidelijker verschillen waren er bij groei op cellobiose, lactose, en lignine. De meeste soorten groeiden slecht op cellobiose, ondanks vergelijkbare aantallen beta-glucosidase-coderende genen bij de meeste soorten (supplementaire gegevens 2). Evenzo groeiden alleen A. arachidicola, en in mindere mate A. albertensis, goed op lactose, terwijl het aantal beta-galactosidases in deze soorten vergelijkbaar is met dat van de andere soorten. Het meest interessant was de bevinding dat A. albertensis even goed groeide op lignine als op d-glucose, wat wijst op mogelijke toepassingen bij de productie van biobrandstoffen.

Samengevat is het CAZyme-potentieel in sectie Flavi grotendeels geconserveerd (met uitzondering van A. coremiiformis) met enige variaties in kopie-aantallen, maar het genomische potentieel en de variaties worden niet noodzakelijk weerspiegeld in de groei. Het is daarom waarschijnlijk dat, zoals eerder gesuggereerd55, de waargenomen verschillen grotendeels op het regulatorische niveau liggen.

CAZyme familie GH28 is opgeblazen in clade A. flavus

We waren vooral geïnteresseerd in GH28 CAZymen, omdat ze belangrijk zijn voor voedselfermentatie en de kwaliteit van het uiteindelijke gefermenteerde product63. Een fylogenetische boom werd gemaakt van alle leden van GH28 uit sectie Flavi (supplementaire Fig. 8). De boom bestaat uit 429 eiwitten, gemiddeld 18,7 per soort.

In de boom zijn er verschillende groeperingen. Vijf groepen hebben leden van alle 23 soorten, negen groepen missen één tot vier soorten (meestal A. coremiiformis en A. caelatus), en twee groepen zijn specifiek voor de A. flavus, A. tamarii, en A. nomius clades. Tenslotte zijn er acht groepen die 2-13 soorten bevatten, die de fylogenie niet volgen – hetgeen suggereert dat dit bronnen van GH28 variatie zijn.

In het algemeen hebben soorten uit de clade A. flavus een hoog aantal GH28 leden. Van A. sojae is bekend dat hij een hoog aantal GH28-leden heeft, wat hier ook te zien is met 24 leden; A. sergii heeft echter een nog hoger aantal met 25 leden. Het zou interessant kunnen zijn om te onderzoeken of dit kan worden benut door A. sergii te gebruiken als een nieuwe soort in voedselfermentatie en/of als bron van nieuwe enzymen.

Analyse van secundair metabolisme

Het is bekend dat het genus Aspergillus een groot aantal SM’s produceert en het aantal voorspelde SMGC’s is zelfs nog hoger. De meerderheid van de voorspelde SMGCs zijn niet gekarakteriseerd en hebben daarom het potentieel om een diversiteit aan nieuwe, bio-actieve verbindingen te produceren. Wij onderzochten de diversiteit en het potentieel voor SM productie in sectie Flavi, zowel kwantitatief in termen van aantallen clusters, als kwalitatief in termen van de verbindingen die deze clusters mogelijk zouden kunnen produceren.

Het secundaire metabolisme in sectie Flavi is divers en productief

Om het potentieel voor SM-productie kwantitatief te beoordelen, werden SMGC’s voorspeld met behulp van een SMURF-achtig voorspellingstool64 voor alle soorten behalve N. crassa en A. sojae, aangezien deze werden gesequenced met andere methoden en met ongelijke gen-oproepmethoden (Fig. 6c). Binnen de 28 Aspergillus soorten is er een totaal van 1972 voorspelde SMGCs en voor de sectie Flavi genomen is het totaal 1606 SMGCs (73/soort). Dit is meer dan 15 extra per soort vergeleken met het zeer productieve Penicillium-genus65.

Fig. 6: Dereplicatie van bekende verbindingen en voorspelde secundaire metaboliet backbone genen per soort.
figure6

a Een dendrogram dat de fylogenetische relatie tussen de soorten weergeeft. De zwarte vakken in de knooppunten vertegenwoordigen de families van secundaire metabolietgenenclusters (SMGC’s) die worden gedeeld door de soorten die zich vanuit dat knooppunt vertakken. Als er geen zwart vakje is, zijn er nul gedeelde clusters. De grijze vakjes aan de uiteinden geven het aantal unieke SMGC-families weer die slechts in één soort voor de Flavi-sectie zijn aangetroffen. b Matrix die de aan- en afwezigheid van SMGC-families aangeeft, gekoppeld aan bekende clusters uit de MIBiG-database66 voor elke soort. Een overzicht van de clusterfamilie voor aflatoxine is te vinden in supplementaire figuur 11. c Voorspelde genen voor secundaire metabolieten voor elke soort, onderverdeeld naar het backbone enzym. DMAT: dimethylallyltransferase (prenyltransferases), HYBRID: een backbone-gen dat domeinen van NRPS- en PKS-backbones bevat, NRPS: niet-ribosomaal peptidesynthetase, NRPS-achtig: niet-ribosomaal peptidesynthetase-achtig, met ten minste twee NRPS-specifieke domeinen en een ander domein of één NRPS A-domein in combinatie met een NAD-bindend 4-domein of een korteketendehydrogenase, PKS: polyketidesynthase, PKS-achtig: polyketidesynthase-achtig, met ten minste twee PKS-specifieke domeinen en een ander domein, TC: terpeencyclase.

Wij wilden nagaan hoe uniek de SMGC’s zijn, en hebben daarom families van SMGC’s geconstrueerd (aanvullende gegevens 3). Voor de gehele dataset konden we deze samenvatten in 477 SMGC families, en voor sectie Flavi 308 SMGC families. Hiervan worden 150 SMGC clusters slechts in één sectie Flavi soort gevonden (Fig. 6a), wat een groot aantal unieke clusters in elke soort laat zien (6.8 unieke SMGCs/soort). Vergeleken met Aspergillus sectie Nigri is het aantal clusters per soort in deze studie iets lager, maar het aantal leden in elke SMGC-familie is ook lager, wat duidt op een grotere diversiteit in het secundaire metabolisme in sectie Flavi vergeleken met sectie Nigri.

Dereplicatie van secundair metabolisme voorspelt toxineproducenten

Om het potentieel voor SM-productie kwalitatief te beoordelen, gebruikten we een pijplijn van “genetische dereplicatie” waarbij voorspelde clusters worden geassocieerd met geverifieerde gekarakteriseerde clusters (uit de MIBiG-database66) in een schuld-voor-associatiemethode67. Op basis hiervan werden 20 clusterfamilies aan een samengestelde familie gekoppeld (Fig. 6b). Sommige clusterfamilies werden in alle of bijna alle Flavi-genomen gevonden, bv. die welke lijken op de clusters naftopyron68, nidulanine A69, azanigeron70, 4,4′-piperazine-2,5-diyldimethyl-bis-fenol, en aflavarine71/endocrocine72,73. De meeste families volgen in het algemeen de fylogenetische groepen, wat een op verlies gebaseerd verspreidingspatroon suggereert, maar sommige, zoals de SMGC-families die lijken op de asperfuranon74-, pseurotin A75- of fumagillin76-clusters, volgen de fylogenie niet. Bovendien werden potentiële producenten van bekende toxinen zoals aflatoxine en aspirochloor geïdentificeerd (Fig. 6b).

Combinatie van gegevens en analyse koppelt een verbinding aan een cluster

Uitgaande van de bekende SMGC-clusters, waren we geïnteresseerd in het koppelen van verbindingen en clusters op basis van het aan/afwezigheidspatroon van geproduceerde verbindingen en voorspelde clusters. Daarom hebben we een heatmap gemaakt van alle clusterfamilies die in ten minste vijf soorten zijn gevonden, en hebben we de voorspelde samengestelde families uit de MIBiG dereplicatie toegevoegd, naast de handmatig gecureerde samengestelde families uit een literatuuronderzoek (Supplementary Fig. 9). Daarnaast hebben we de SM-productie van de Flavi-soorten gemeten (Supplementary Data 4).

Van bijzonder belang waren de miyakamiden. Deze zijn oorspronkelijk geïsoleerd uit een A. flavus isolaat en hebben aantoonbaar antibiotische eigenschappen77, maar de biosynthetische gencluster is niet bekend. Onze chemische analyse toonde productie aan in A. sojae, A. nomius, A. parasiticus, A. novoparasiticus, en A. transmontanensis.

Wij voerden retro-biosynthese uit op basis van de chemische structuur en voorspelden dat de biosynthetische gencluster een nonribosomaal peptidesynthetase (NRPS) met 2-3 adenyleringsdomeinen (aangezien twee van de drie aminozuren gelijk zijn), een N-methyltransferase, een acetyltransferase, en mogelijk een decarboxylase/dehydrogenase zou moeten bevatten (Supplementary Fig. 10A). Bij het zoeken naar cluster families met leden in alle miyakamide-producerende soorten met NRPS backbones met 2-3 adenyleringsdomeinen en een methyltransferase domein, voldeed slechts één cluster familie aan de eisen. De cluster familie heeft een NRPS backbone met een methyltransferase domein, drie A-domeinen in de meeste soorten, en twee in A. novoparasiticus. De voorspelling van slechts twee A-domeinen wordt hoogstwaarschijnlijk veroorzaakt door een annotatiefout, aangezien de sequentie-overeenkomst vóór het begin van het gen geconserveerd is (supplementaire Fig. 10B). De grootte van de voorspelde cluster is 1-9 genen, het verschil wordt waarschijnlijk veroorzaakt door SMGC voorspellingsfouten (Synteny plot in supplementaire Fig. 10B). De synteny plot laat zien dat de NRPS en twee kleine genen met onbekende functie sterk geconserveerd zijn. Wij stellen dus voor dat de geïdentificeerde NRPS samen met de twee geconserveerde genen met onbekende functie waarschijnlijk kandidaten zijn voor de biosynthese van miyakamide.

De aflatoxine biosynthese gencluster is sterk geconserveerd

Misschien wel de bekendste secundaire metaboliet in sectie Flavi is de zeer carcinogene aflatoxine. Het is bekend dat aflatoxinen worden geproduceerd door veel soorten uit de sectie Flavi (A. arachidicola, A. luteovirescens, A. flavus, A. minisclerotigenes, A. nomius, A. aflatoxiformans, A. pseudocaelatus, A. pseudonomius, A. pseudotamarii, en sommige isolaten van A. oryzae)4,10.

De dereplicatie-analyse (Fig. 6b) identificeerde een SMGC-familie waarvan voorspeld wordt dat ze betrokken is bij de productie van sterigmatocystine en aflatoxine, namelijk alle soorten in de clades A. flavus, A. nomius, en A. tamarii, behalve A. tamarii. Een synteny plot van de SMGC familie (supplementaire Fig. 11) laat zien dat de cluster zeer goed geconserveerd is, zonder herschikkingen en met een hoge alignment identiteit voor de aflatoxine genen. Alleen A. caelatus heeft een afgeknotte vorm met alleen de aflB, aflC, en aflD genen en A. tamarii lijkt een volledig verlies van de cluster te hebben. Interessant is dat de meeste voorspelde clusters niet de aflP en aflQ genen bevatten die verantwoordelijk zijn voor de laatste stap in de biosynthese van aflatoxine. We zochten de genomen af op aflP (supplementaire Fig. 12), en vonden het in alle genomen, maar met verschillende startplaatsen en extra sequentie in het midden van de eiwitten. RNA-seq gegevens ondersteunen deze modellen (supplementaire Fig. 13) en suggereren fouten in de A. flavus genmodellen. Evenzo wordt het aflQ gen gevonden in alle andere soorten, maar 5-10 genen verwijderd van de voorspelde clusters. Gedetailleerde analyse toont dus aan dat al deze soorten de genen hebben die nodig zijn voor de biosynthese van aflatoxine.