- Assessment of 19 newly sequenced section Flavi genomes
- Sectie Flavi-soorten hebben over het algemeen uitgebreide genomen
- Multigene fylogenie toont complexe erfenis van A. oryzae
- Analyse van gedeelde eiwitten bevestigt hoge genetische diversiteit
- Soort-specifieke genen coderen vaak voor regulatie en P450s
- Soorten genen zijn oververtegenwoordigd in sub-telomerische regio’s
- Synteny-analyse onthult eilanden van zeer variabele geninhoud
- Sectie Flavi is een rijke bron van koolhydraat-actieve enzymen
- Variabel CAZyme-gehalte weerspiegelt niet het vermogen om plantaardige biomassa af te breken
- CAZyme familie GH28 is opgeblazen in clade A. flavus
- Analyse van secundair metabolisme
- Het secundaire metabolisme in sectie Flavi is divers en productief
- Dereplicatie van secundair metabolisme voorspelt toxineproducenten
- Combinatie van gegevens en analyse koppelt een verbinding aan een cluster
- De aflatoxine biosynthese gencluster is sterk geconserveerd
Assessment of 19 newly sequenced section Flavi genomes
In deze studie presenteren we de genoom-sequenties van 19 soorten uit Aspergillus section Flavi (Fig. 1b). Twee hiervan (A. nomius en A. arachidicola18,19) werden parallel aan dit werk ook door andere groepen gepubliceerd. We vergelijken deze 19 met eerder gesequenteerde sectie Flavi-soorten (A. oryzae, A. flavus, A. sojae, en A. luteovirescens3,12,13,14) en acht referentiesoorten: zes uit de rest van het genus Aspergillus plus Neurospora crassa en Penicillium digitatum als outgroups (Fig. 1a, b).
Als eerste basistest werd de kwaliteit van de genoomassemblages vergeleken op basis van genoomgrootte, GC-gehalte, en aantal voorspelde eiwitten (Fig. 1c). Hieruit bleek een redelijke ontwerp-genoomkwaliteit met 13 van de 18 genomen geassembleerd in minder dan 500 scaffolds (Fig. 1c, kolom 5). Een reden tot ongerustheid was A. coremiiformis met 2728 scaffolds, waardoor wij ons zorgen maakten over de kwaliteit van de geninhoud. Het genoom omvat echter 99,78% van de Benchmarking Universal Single-Copy Orthologs (BUSCO20), en 96% van de clusters van express sequence tags (EST) kunnen aan het genoom worden gekoppeld. We concluderen dus dat de genoomannotatie van voldoende hoge kwaliteit is voor vergelijkingen van de geninhoud, ondanks het grote aantal scaffolds.
Sectie Flavi-soorten hebben over het algemeen uitgebreide genomen
De genoomgrootte van Aspergillus sectie Flavi is over het algemeen groot in vergelijking met andere representatieve Aspergilli (gemiddeld 37,96 Mbp vs. 31,7 Mbp (Fig. 1c)), zoals eerder werd gerapporteerd voor A. oryzae21. Een belangrijke uitzondering is A. coremiiformis, die zowel minder genen als een aanzienlijk kleiner genoom heeft, waardoor het uniek is in de sectie.
Multigene fylogenie toont complexe erfenis van A. oryzae
Verder onderzochten we de evolutionaire relaties in sectie Flavi op basis van een fylogenie afgeleid van 200 genen (Fig. 1a). De ondersteuning van de vertakkingen binnen de boom is hoog (100 van de 100 bootstraps in de meeste takken). De boom bevestigt dat sectie Flavi een monofyletische groep is. De clades in Fig. 1a komen overeen met een eerder gerapporteerde fylogenetische boom gebaseerd op het beta-tubuline gen10,11,22 en de afstanden tussen de secties komen overeen met eerder werk23.
Een mogelijke fout in de boom is dat A. sojae het dichtste bij A. flavus wordt gevonden, aangezien A. sojae wordt gezien als een gedomesticeerde versie van A. parasiticus. Deze vertakking heeft inderdaad ook de laagste bootstrapwaarde in de boom. De meest waarschijnlijke verklaring is dat, aangezien de genvoorspellingen voor A. sojae gebaseerd zijn op de genoomannotaties van A. flavus en A. oryzae24,25, er een bias ontstaat in de voorspelde genen en deze bias wordt waarschijnlijk weerspiegeld in de boom. Bij wijze van test hebben wij fylogenetische bomen gegenereerd met behulp van alternatieve methoden die niet afhankelijk zijn van genannotatie (CVTree26,27). Deze laten duidelijk zien dat A. sojae het dichtst bij A. parasiticus staat, zowel bij gebruik van genoom- als proteoomsequenties (supplementaire fig. 1 en supplementaire fig. 2). Wij menen dan ook dat A. sojae in de fyogenetische boom naast A. parasiticus moet worden geplaatst, zoals de pijl aangeeft in Fig. 1a.
Daarnaast staat A. oryzae, die wordt gezien als een gedomesticeerde versie van A. flavus10,28,29,30, er niet direct naast in de boom. Eerder is echter gesuggereerd dat A. oryzae afstamt van een voorouder die de voorouder was van A. minisclerotigenes of A. aflatoxiformans31. De fylogenie (Fig. 1a, zoom) ondersteunt deze suggestie en toont aan dat A. minisclerotigenes en A. aflatoxiformans nauwere verwanten zijn van A. oryzae dan A. flavus.
Analyse van gedeelde eiwitten bevestigt hoge genetische diversiteit
Om kernkenmerken te onderzoeken die alle sectie Flavi soorten en clades delen, alsmede kenmerken van individuele soorten, hebben we een analyse gemaakt van gedeelde homologe genen binnen en tussen soorten16, en deze gesorteerd in homologe eiwitfamilies (Fig. 2). Dit maakte de identificatie mogelijk van (1) De kern genoom-eiwit families met ten minste één lid in alle vergeleken soorten. Verwacht wordt dat deze families essentiële eiwitten omvatten. (2) Sectie- en cladspecifieke genen – genen die homologe genen hebben in alle leden van een clade/sectie, maar niet in een andere soort. (3) Soortspecifieke genen-genen zonder homologe genen in een andere soort in de vergelijking.
Het kerngenoom van alle 31 soorten in deze dataset bedraagt 2082 eiwitfamilies. Voor de 29 Aspergillus-soorten bedraagt dit aantal 3853, en voor de sectie Flavi-soorten alleen al 4903 eiwitfamilies. Aldus varieert meer dan de helft van het genoom van de sectie Flavi soorten.
Bij onderzoek van de clade-specifieke eiwitfamilies worden er slechts zeer weinig (27-54) gevonden (Fig. 2a), hetgeen weinig is vergeleken met de eerder onderzochte sectie Nigri16. Aangezien de secties Nigri en Flavi ongeveer even soortenrijk zijn, zou dit erop kunnen wijzen dat de soorten in sectie Flavi meer verschillend zijn. Dit wordt ondersteund door het feit dat het aantal soortspecifieke genen zeer hoog is (166-2181), waarbij we 166 (A. sojae) als een kunstmatig laag getal beschouwen, omdat de genenoproep in dit genoom gebaseerd is op A. flavus en A. oryzae genomen.
Soort-specifieke genen coderen vaak voor regulatie en P450s
We wilden zien of de soort-specifieke genen in verband konden worden gebracht met bekende Flavi-functies zoals voedselfermentatie en plant- en menselijke pathogeniteit. Om dit te doen, onderzochten we de voorspelde functies van de soortspecifieke genen met behulp van InterPro, GO en KOG annotaties32,33,34,35. Het aandeel met een functionele annotatie was laag; 20, 12, en 9% voor respectievelijk InterPro, GO, en KOG; in totaal had 21% een annotatie (supplementaire Figs. 3-5). Dit is een zeer hoog – maar niet ongebruikelijk – percentage van niet-identificeerbare functies.
We zullen ons richten op InterPro, omdat dit meer genen omvat: de meest voorkomende InterPro-functies omvatten transcriptiefactoren, proteïnekinases, transporters, en P450s (Supplementary Fig. 3), die ook significant oververtegenwoordigd zijn. Hoewel deze eigenschappen niet direct in verband kunnen worden gebracht met voedselfermentatie en pathogeniteit, is regulatie betrokken bij aanpassing en spelen P450’s rollen in zowel substraatafbraak als productie van bioactieve verbindingen, die beide relevant zijn voor schimmelpathogeniciteit.
Soorten genen zijn oververtegenwoordigd in sub-telomerische regio’s
Het is aangetoond dat de sub-telomerische sequenties uitgebreid herschikte regio’s zijn in A. nidulans, A. oryzae, en A. fumigatus21. Dit wordt ook gezien bij zoogdieren, nematoden en gisten36. Eerdere studies37,38 toonden aan dat subtelomere regio’s een bias hebben voor unieke, afwijkende of ontbrekende genen. Een andere studie heeft aangetoond dat secundaire metabolietgenclusters (SMGC’s) verrijkt zijn in subtelomere regio’s in A. nidulans en A. fumigatus21.
Wij hebben daarom de gendichtheid en de locatie van soortspecifieke genen, secundaire metabolietclusters en kerngenoom onderzocht, door het telomeer-tot-telomeer genoom van A. oryzae-genoom als referentie te gebruiken om de mogelijke oververtegenwoordiging van deze genen in de subtelomere regio’s te beoordelen (fig. 3).
Zowel visuele inspectie als Fisher’s exacte test bevestigden dat zowel de soortspecifieke (p-waarde = 7.266e-07) en SMGC’s (p-waarde < 2.2e-16) verrijkt zijn in de richting van de sub-telomerische regio’s (100 kbp van de chromosomale uiteinden), waar kerngenen minder vaak in de sub-telomerische regio’s worden aangetroffen. Het feit dat de soortspecifieke genen niet willekeurig verdeeld zijn, pleit tegen het feit dat ze gewoon annotatie- of genmodelleringsfouten zijn, en wijst er dus op dat het wel degelijk om legitieme genen gaat. De verdeling van de soortspecifieke genen suggereert dat nieuwe genen vaker met succes in de subtelomerische regio’s worden opgenomen dan op andere plaatsen. Of dit het resultaat is van een selectie voor de sub-telomerische regio, of een tegen-selectie tegen andere regio’s, of beide, blijkt niet uit de gegevens.
Synteny-analyse onthult eilanden van zeer variabele geninhoud
Syntenische en niet-syntenische regio’s zijn een andere factor die in overweging moet worden genomen bij het analyseren van de plaats van het genoom. Er is aangetoond dat het genoom van A. oryzae een mozaïekpatroon van syntenische en niet-syntenische regio’s vertoont ten opzichte van ver verwante Aspergilli1,2. Wij onderzochten de syntenie in de sectie Flavi en in A. nidulans en A. fumigatus met A. oryzae RIB40 als referentie (tabel 1). Deze analyse ondersteunt onze eerdere bevinding dat A. oryzae nauwer verwant is aan A. aflatoxiformans dan A. flavus.
Een overzicht van gedeelde syntenische genen wordt geïllustreerd in supplementair Fig. 6. In het algemeen zijn er minder regio’s van syntenie in de richting van de telomere uiteinden zoals eerder gezien1,2 in een vergelijking van A. nidulans, A. fumigatus, en A. oryzae. We hebben verder waargenomen dat chromosomen 1 en 2 een zeer hoge mate van geconserveerde syntenie hebben, terwijl chromosomen 6 en 8 een veel lagere conservering van syntenie hebben.
We vinden dichte eilanden van niet-syntenische genen in niet-sub-telomere gebieden op chromosomen 4, 6, en 8. Deze zouden veroorzaakt kunnen zijn door horizontale genoverdracht (HGT), gen shuffling, of de novo genvorming. Wij onderzochten HGTs met behulp van BLASTp om de beste hits in de NCBI niet-redundante database te onderzoeken. Van recente HGT’s wordt verwacht dat ze een hoge sequentie-identiteit hebben met een andere soortgroep van waaruit ze zouden zijn overgebracht, en niet worden aangetroffen in de nauw verwante soorten39. Geen van deze eilanden vertoonde tekenen van recente HGT’s. Bovendien waren slechts 23 van de 80 genen in de niet-syntenische blokken A. oryzae-specifiek. Het lijkt dus waarschijnlijk dat deze niet-syntenische eilanden veroorzaakt zijn door een mix van significante herschikkingen, duplicatiegebeurtenissen en het ontstaan van A. oryzae-specifieke genen.
Tezamen zou het feit dat we enkele zeer geconserveerde chromosomen en enkele sterk herschikte niet-syntenische blokken waarnemen, kunnen wijzen op een evolutionaire druk voor stabiliteit in sommige regio’s, terwijl andere regio’s vaak onderhevig zijn aan genverschuivingen en herschikkingen, d.w.z.,
Sectie Flavi is een rijke bron van koolhydraat-actieve enzymen
Koolhydraat-actieve enzymen (CAZymes) zijn essentieel voor welke koolstofbronnen een soort kan afbreken en benutten. Binnen de sectie Flavi is het CAZymes/koolstofgebruik vooral beschreven voor A. oryzae1,2,40 en in mindere mate voor A. flavus41,42,43,44,45 en A. sojae46,47, terwijl slechts incidentele studies zijn uitgevoerd met andere soorten van deze groep48,49,50,51,52,53,54, waarbij vaak de productie of karakterisering van respectievelijk een bepaalde CAZyme-activiteit of een bepaald CAZyme-eiwit werd beschreven.
We gebruikten de CAZy-database om het CAZyme-gehalte in de genomen van de sectie te voorspellen (Fig. 4). Een totaal van 13.759 CAZymen werden voorspeld voor de 23 Flavi soorten (gemiddeld 598/soort). Dit is vrij veel in vergelijking met de opgenomen referentie Aspergilli (508/soort).
Uit deze analyse blijkt duidelijk dat er een duidelijk verschil is tussen de clades van sectie Flavi (Fig. 4b), waaruit opnieuw een variatie in geninhoud in de sectie blijkt.
Variabel CAZyme-gehalte weerspiegelt niet het vermogen om plantaardige biomassa af te breken
Om het werkelijke vermogen tot koolstofgebruik in sectie Flavi te evalueren, voerden we groeiprofielen uit van 31 soorten (29 Aspergilli, waaronder 23 soorten uit sectie Flavi) op 35 plantaardige biomassa-gerelateerde substraten (Fig. 5, supplementaire data 1) en vergeleken dit met de CAZyme-geninhoudsvoorspelling gerelateerd aan de afbraak van plantaardige biomassa (supplementaire data 2). In een eerdere studie kon de variatie in groei tussen ver verwante Aspergilli in verband worden gebracht met verschillen in CAZyme geninhoud55 , maar dit was niet het geval voor nauwer verwante soorten uit Aspergillus sectie Nigri16.
Glucose resulteerde in de beste groei van alle monosacchariden voor alle soorten en werd daarom gebruikt als een interne referentie voor groei (aanvullende Fig. 7). Groei op andere koolstofbronnen werd vergeleken met groei op d-glucose en dit relatieve verschil werd vergeleken tussen de soorten. Groei op monosacchariden was grotendeels vergelijkbaar tussen de soorten van sectie Flavi (Fig. 5, aanvullende Fig. 7, en aanvullende gegevens 1).
De CAZyme sets gerelateerd aan de afbraak van plantaardige biomassa zijn over het algemeen zeer vergelijkbaar voor sectie Flavi (Fig. 5), met uitzondering van A. coremiiformis, die een sterk gereduceerde genenset heeft. Dit is vooral te wijten aan de vermindering van families van glycosidehydrolasen, maar ook van een aantal families die verband houden met de afbraak van pectine, xylan en xyloglucan. Verrassend genoeg vertoonde deze soort een betere relatieve groei op xylan dan de meeste andere soorten, terwijl de groei op andere polysacchariden voornamelijk vergelijkbaar was met die van sectie Flavi. De verminderde genenset heeft het vermogen van deze soort om plantaardige biomassa af te breken dus niet verminderd. Dit zou vergelijkbaar kunnen zijn met het geval van T. reesei, die ook een gereduceerde CAZyme-genenset heeft, maar de overeenkomstige enzymen in zeer hoge concentraties produceert56. De oorsprong van deze benadering is echter waarschijnlijk heel anders, aangezien zijn CAZyme-gehalte is gevormd door verlies en vervolgens massale HGT-toename van plantaardige celwandafbrekende enzymen57, terwijl hiervoor geen aanwijzingen zijn voor A. coremiiformis.
Hydrolytische verschillen zijn clade-specifiek binnen sectie Flavi (Aanvullende gegevens 2). De A. togoensis clade heeft een gereduceerde set van xylanolytische en xyloglucanolytische genen, maar dit wordt niet weerspiegeld in de groei. Daarentegen zijn de genen voor GH115 (alfaglucuronidase) uitgebreid in de clades A. flavus, A. tamarii en A. nomius (xylanolytische enzymen of activiteit zijn gerapporteerd van verschillende soorten uit deze clades49,50,51,53,58,59,60,61,62), GH62 (arabinoxylan arabinofuranohydrolase) is uitgebreid in de clade A. leporis, en de clades A. leporis en A. avenaceus waren de enige clades met CE15 (glucuronoyl esterases), die ook werden aangetroffen bij Aspergillus-soorten buiten sectie Flavi.
Het galactomannaan-afbrekend vermogen was bijna volledig geconserveerd in sectie Flavi, maar interessant genoeg was de groei op guargom dat voornamelijk uit galactomannaan bestaat, variabel tussen de soorten. Evenzo resulteerde het verminderde amylolytische vermogen van de clades A. togoensis en A. avenaceus niet in verminderde groei op zetmeel of maltose.
Variatie werd waargenomen in het aantal pectinolytische genen. De meest uitgesproken verschillen waren de afwezigheid van PL11 (rhamnogalacturonan lyase) genen bij de meeste soorten van de sectie Flavi, en de uitbreiding van GH78 (alpha-rhamnosidase) in de clades A. flavus en A. tamarii. Deze verschillen en de kleinere verschillen in andere families leidden echter niet tot grote variatie in groei op pectine.
Duidelijker verschillen waren er bij groei op cellobiose, lactose, en lignine. De meeste soorten groeiden slecht op cellobiose, ondanks vergelijkbare aantallen beta-glucosidase-coderende genen bij de meeste soorten (supplementaire gegevens 2). Evenzo groeiden alleen A. arachidicola, en in mindere mate A. albertensis, goed op lactose, terwijl het aantal beta-galactosidases in deze soorten vergelijkbaar is met dat van de andere soorten. Het meest interessant was de bevinding dat A. albertensis even goed groeide op lignine als op d-glucose, wat wijst op mogelijke toepassingen bij de productie van biobrandstoffen.
Samengevat is het CAZyme-potentieel in sectie Flavi grotendeels geconserveerd (met uitzondering van A. coremiiformis) met enige variaties in kopie-aantallen, maar het genomische potentieel en de variaties worden niet noodzakelijk weerspiegeld in de groei. Het is daarom waarschijnlijk dat, zoals eerder gesuggereerd55, de waargenomen verschillen grotendeels op het regulatorische niveau liggen.
CAZyme familie GH28 is opgeblazen in clade A. flavus
We waren vooral geïnteresseerd in GH28 CAZymen, omdat ze belangrijk zijn voor voedselfermentatie en de kwaliteit van het uiteindelijke gefermenteerde product63. Een fylogenetische boom werd gemaakt van alle leden van GH28 uit sectie Flavi (supplementaire Fig. 8). De boom bestaat uit 429 eiwitten, gemiddeld 18,7 per soort.
In de boom zijn er verschillende groeperingen. Vijf groepen hebben leden van alle 23 soorten, negen groepen missen één tot vier soorten (meestal A. coremiiformis en A. caelatus), en twee groepen zijn specifiek voor de A. flavus, A. tamarii, en A. nomius clades. Tenslotte zijn er acht groepen die 2-13 soorten bevatten, die de fylogenie niet volgen – hetgeen suggereert dat dit bronnen van GH28 variatie zijn.
In het algemeen hebben soorten uit de clade A. flavus een hoog aantal GH28 leden. Van A. sojae is bekend dat hij een hoog aantal GH28-leden heeft, wat hier ook te zien is met 24 leden; A. sergii heeft echter een nog hoger aantal met 25 leden. Het zou interessant kunnen zijn om te onderzoeken of dit kan worden benut door A. sergii te gebruiken als een nieuwe soort in voedselfermentatie en/of als bron van nieuwe enzymen.
Analyse van secundair metabolisme
Het is bekend dat het genus Aspergillus een groot aantal SM’s produceert en het aantal voorspelde SMGC’s is zelfs nog hoger. De meerderheid van de voorspelde SMGCs zijn niet gekarakteriseerd en hebben daarom het potentieel om een diversiteit aan nieuwe, bio-actieve verbindingen te produceren. Wij onderzochten de diversiteit en het potentieel voor SM productie in sectie Flavi, zowel kwantitatief in termen van aantallen clusters, als kwalitatief in termen van de verbindingen die deze clusters mogelijk zouden kunnen produceren.
Het secundaire metabolisme in sectie Flavi is divers en productief
Om het potentieel voor SM-productie kwantitatief te beoordelen, werden SMGC’s voorspeld met behulp van een SMURF-achtig voorspellingstool64 voor alle soorten behalve N. crassa en A. sojae, aangezien deze werden gesequenced met andere methoden en met ongelijke gen-oproepmethoden (Fig. 6c). Binnen de 28 Aspergillus soorten is er een totaal van 1972 voorspelde SMGCs en voor de sectie Flavi genomen is het totaal 1606 SMGCs (73/soort). Dit is meer dan 15 extra per soort vergeleken met het zeer productieve Penicillium-genus65.
Wij wilden nagaan hoe uniek de SMGC’s zijn, en hebben daarom families van SMGC’s geconstrueerd (aanvullende gegevens 3). Voor de gehele dataset konden we deze samenvatten in 477 SMGC families, en voor sectie Flavi 308 SMGC families. Hiervan worden 150 SMGC clusters slechts in één sectie Flavi soort gevonden (Fig. 6a), wat een groot aantal unieke clusters in elke soort laat zien (6.8 unieke SMGCs/soort). Vergeleken met Aspergillus sectie Nigri is het aantal clusters per soort in deze studie iets lager, maar het aantal leden in elke SMGC-familie is ook lager, wat duidt op een grotere diversiteit in het secundaire metabolisme in sectie Flavi vergeleken met sectie Nigri.
Dereplicatie van secundair metabolisme voorspelt toxineproducenten
Om het potentieel voor SM-productie kwalitatief te beoordelen, gebruikten we een pijplijn van “genetische dereplicatie” waarbij voorspelde clusters worden geassocieerd met geverifieerde gekarakteriseerde clusters (uit de MIBiG-database66) in een schuld-voor-associatiemethode67. Op basis hiervan werden 20 clusterfamilies aan een samengestelde familie gekoppeld (Fig. 6b). Sommige clusterfamilies werden in alle of bijna alle Flavi-genomen gevonden, bv. die welke lijken op de clusters naftopyron68, nidulanine A69, azanigeron70, 4,4′-piperazine-2,5-diyldimethyl-bis-fenol, en aflavarine71/endocrocine72,73. De meeste families volgen in het algemeen de fylogenetische groepen, wat een op verlies gebaseerd verspreidingspatroon suggereert, maar sommige, zoals de SMGC-families die lijken op de asperfuranon74-, pseurotin A75- of fumagillin76-clusters, volgen de fylogenie niet. Bovendien werden potentiële producenten van bekende toxinen zoals aflatoxine en aspirochloor geïdentificeerd (Fig. 6b).
Combinatie van gegevens en analyse koppelt een verbinding aan een cluster
Uitgaande van de bekende SMGC-clusters, waren we geïnteresseerd in het koppelen van verbindingen en clusters op basis van het aan/afwezigheidspatroon van geproduceerde verbindingen en voorspelde clusters. Daarom hebben we een heatmap gemaakt van alle clusterfamilies die in ten minste vijf soorten zijn gevonden, en hebben we de voorspelde samengestelde families uit de MIBiG dereplicatie toegevoegd, naast de handmatig gecureerde samengestelde families uit een literatuuronderzoek (Supplementary Fig. 9). Daarnaast hebben we de SM-productie van de Flavi-soorten gemeten (Supplementary Data 4).
Van bijzonder belang waren de miyakamiden. Deze zijn oorspronkelijk geïsoleerd uit een A. flavus isolaat en hebben aantoonbaar antibiotische eigenschappen77, maar de biosynthetische gencluster is niet bekend. Onze chemische analyse toonde productie aan in A. sojae, A. nomius, A. parasiticus, A. novoparasiticus, en A. transmontanensis.
Wij voerden retro-biosynthese uit op basis van de chemische structuur en voorspelden dat de biosynthetische gencluster een nonribosomaal peptidesynthetase (NRPS) met 2-3 adenyleringsdomeinen (aangezien twee van de drie aminozuren gelijk zijn), een N-methyltransferase, een acetyltransferase, en mogelijk een decarboxylase/dehydrogenase zou moeten bevatten (Supplementary Fig. 10A). Bij het zoeken naar cluster families met leden in alle miyakamide-producerende soorten met NRPS backbones met 2-3 adenyleringsdomeinen en een methyltransferase domein, voldeed slechts één cluster familie aan de eisen. De cluster familie heeft een NRPS backbone met een methyltransferase domein, drie A-domeinen in de meeste soorten, en twee in A. novoparasiticus. De voorspelling van slechts twee A-domeinen wordt hoogstwaarschijnlijk veroorzaakt door een annotatiefout, aangezien de sequentie-overeenkomst vóór het begin van het gen geconserveerd is (supplementaire Fig. 10B). De grootte van de voorspelde cluster is 1-9 genen, het verschil wordt waarschijnlijk veroorzaakt door SMGC voorspellingsfouten (Synteny plot in supplementaire Fig. 10B). De synteny plot laat zien dat de NRPS en twee kleine genen met onbekende functie sterk geconserveerd zijn. Wij stellen dus voor dat de geïdentificeerde NRPS samen met de twee geconserveerde genen met onbekende functie waarschijnlijk kandidaten zijn voor de biosynthese van miyakamide.
De aflatoxine biosynthese gencluster is sterk geconserveerd
Misschien wel de bekendste secundaire metaboliet in sectie Flavi is de zeer carcinogene aflatoxine. Het is bekend dat aflatoxinen worden geproduceerd door veel soorten uit de sectie Flavi (A. arachidicola, A. luteovirescens, A. flavus, A. minisclerotigenes, A. nomius, A. aflatoxiformans, A. pseudocaelatus, A. pseudonomius, A. pseudotamarii, en sommige isolaten van A. oryzae)4,10.
De dereplicatie-analyse (Fig. 6b) identificeerde een SMGC-familie waarvan voorspeld wordt dat ze betrokken is bij de productie van sterigmatocystine en aflatoxine, namelijk alle soorten in de clades A. flavus, A. nomius, en A. tamarii, behalve A. tamarii. Een synteny plot van de SMGC familie (supplementaire Fig. 11) laat zien dat de cluster zeer goed geconserveerd is, zonder herschikkingen en met een hoge alignment identiteit voor de aflatoxine genen. Alleen A. caelatus heeft een afgeknotte vorm met alleen de aflB, aflC, en aflD genen en A. tamarii lijkt een volledig verlies van de cluster te hebben. Interessant is dat de meeste voorspelde clusters niet de aflP en aflQ genen bevatten die verantwoordelijk zijn voor de laatste stap in de biosynthese van aflatoxine. We zochten de genomen af op aflP (supplementaire Fig. 12), en vonden het in alle genomen, maar met verschillende startplaatsen en extra sequentie in het midden van de eiwitten. RNA-seq gegevens ondersteunen deze modellen (supplementaire Fig. 13) en suggereren fouten in de A. flavus genmodellen. Evenzo wordt het aflQ gen gevonden in alle andere soorten, maar 5-10 genen verwijderd van de voorspelde clusters. Gedetailleerde analyse toont dus aan dat al deze soorten de genen hebben die nodig zijn voor de biosynthese van aflatoxine.