- Vurdering af 19 nyligt sekventerede genomer fra sektion Flavi
- Sektion Flavi-arter har generelt udvidede genomer
- Multigenefylogeni viser kompleks arv fra A. oryzae
- Analyse af fælles proteiner bekræfter høj genetisk diversitet
- Speciespecifikke gener koder ofte for regulering og P450’er
- Species gener er overrepræsenteret i sub-telomeriske regioner
- Syntenyanalyse afslører øer med meget variabelt genindhold
- Sektion Flavi er en rig kilde til kulhydrataktive enzymer
- Variabelt CAZyme-indhold afspejler ikke evnen til at nedbryde plantebiomasse
- CAZym-familien GH28 er oppustet i kladen A. flavus
- Analyse af sekundær metabolisme
- Sekundær metabolisme i sektion Flavi er mangfoldig og produktiv
- Dereplikation af sekundær metabolisme forudsiger toksinproducenter
- Kombination af data og analyse forbinder en forbindelse til en klynge
- Den aflatoksinbiosyntetiske genklynge er stærkt konserveret
Vurdering af 19 nyligt sekventerede genomer fra sektion Flavi
I denne undersøgelse præsenterer vi helgenomsekvenser af 19 arter fra Aspergillus sektion Flavi (Fig. 1b). To af disse (A. nomius og A. arachidicola18,19) blev også offentliggjort af andre grupper sideløbende med dette arbejde. Vi sammenligner disse 19 med tidligere sekvenserede arter fra afsnit Flavi (A. oryzae, A. flavus, A. sojae og A. luteovirescens3,12,13,14) samt otte referencearter: seks fra resten af Aspergillus-slægten plus Neurospora crassa og Penicillium digitatum som outgroups (Fig. 1a, b).
Som en første basistest blev kvaliteten af genomsamlinger sammenlignet på grundlag af genomstørrelse, GC-indhold og antal forudsagte proteiner (fig. 1c). Dette viste en rimelig udkast til genomkvalitet med 13 ud af de 18 genomer samlet i færre end 500 scaffolds (fig. 1c, kolonne 5). A. coremiiformis gav anledning til bekymring med 2728 scaffolds, hvilket gjorde os bekymrede over kvaliteten af genindholdet. Genomet dækker imidlertid 99,78 % af Benchmarking Universal Single-Copy Orthologs (BUSCO20), og 96 % af EST-klyngerne (Expressed Sequence Tag) kan kortlægges til genomet. Vi konkluderer således, at genomannotationen er af tilstrækkelig høj kvalitet til sammenligninger af genindholdet på trods af det store antal scaffolds.
Sektion Flavi-arter har generelt udvidede genomer
Genomstørrelserne af Aspergillus sektion Flavi er generelt store sammenlignet med andre repræsentative Aspergilli (gennemsnit på 37,96 Mbp vs. 31,7 Mbp (Fig. 1c)), som det tidligere er rapporteret for A. oryzae21. En stor undtagelse er A. coremiiformis, som både har færre gener og et markant mindre genom, hvilket gør den unik i sektionen.
Multigenefylogeni viser kompleks arv fra A. oryzae
Næst undersøgte vi de evolutionære relationer i sektion Flavi baseret på en fylogeni afledt af 200 gener (Fig. 1a). Støtten af forgreningerne inden for træet er høj (100 ud af 100 bootstraps i de fleste grene). Træet bekræfter, at afsnit Flavi er en monofyletisk gruppe. Kladerne i Fig. 1a svarer til et tidligere rapporteret fylogenetisk træ baseret på beta-tubulin-genet10,11,22 , og afstandene mellem sektionerne svarer til tidligere arbejde23.
En potentiel fejl i træet er, at A. sojae findes tættest på A. flavus, da A. sojae opfattes som en domesticeret udgave af A. parasiticus. Denne forgrening har faktisk også den laveste bootstrap-værdi i træet. Den mest sandsynlige forklaring er, at da A. sojae-genprædiktionerne er baseret på A. flavus- og A. oryzae-genomannotationer24,25 , skabes der en skævhed i de forudsagte gener, og denne skævhed afspejles sandsynligvis i træet. Som en test har vi genereret fylogenetiske træer ved hjælp af alternative metoder, der ikke er afhængige af genannotation (CVTree26,27). Disse viser tydeligt, at A. sojae er tættest på A. parasiticus, både når der anvendes helgenom- og proteomsekvenser (Supplerende fig. 1 og Supplerende fig. 2). Vi mener derfor, at A. sojae bør placeres ved siden af A. parasiticus i det fyogenetiske træ som pilen angivet i fig. 1a.
Dertil kommer, at A. oryzae, der opfattes som en domesticeret udgave af A. flavus10,28,29,30 , ikke er direkte ved siden af A. flavus i træet. Det er dog tidligere blevet foreslået, at A. oryzae nedstammer fra en forfader, der var forfader til A. minisclerotigenes eller A. aflatoxiformans31 . Fylogenien (fig. 1a, zoom) understøtter dette forslag og viser, at A. minisclerotigenes og A. aflatoxiformans er nærmere beslægtede med A. oryzae end A. flavus.
Analyse af fælles proteiner bekræfter høj genetisk diversitet
For at undersøge kerneegenskaber, der deles af alle sektion Flavi-arter, klader samt træk hos de enkelte arter, foretog vi en analyse af fælles homologe gener inden for og på tværs af arter16 og sorterede disse i homologe proteinfamilier (Fig. 2). Dette gjorde det muligt at identificere (1) De centrale genom-proteinfamilier med mindst ét medlem i alle sammenlignede arter. Dette forventes at dække essentielle proteiner. (2) Sektionsspecifikke og kladespecifikke gener-generne – gener, der har homologer hos alle medlemmer af en klade/sektion, men ikke hos andre arter. (3) Artsspecifikke gener-gener uden homologer hos nogen anden art i sammenligningen.
Kernegenomet for alle 31 arter i dette datasæt er 2082 proteinfamilier. For de 29 Aspergillus-arter er dette tal 3853, og for sektion Flavi-arter alene udgør 4903 proteinfamilier. Således varierer mere end halvdelen af genomet for section Flavi-arter på tværs af arterne.
Ved gennemgang af de kladespecifikke proteinfamilier findes kun meget få (27-54) (fig. 2a), hvilket er lavt sammenlignet med section Nigri, som tidligere er undersøgt16. Da sektion Nigri og Flavi er nogenlunde lige artsrige, kunne dette tyde på, at arterne i sektion Flavi er mere adskilte. Dette understøttes af, at antallet af artsspecifikke gener er meget højt (166-2181), hvor vi ser 166 (A. sojae) som et kunstigt lavt tal, hvilket skyldes, at genkaldelsen i dette genom er baseret på A. flavus og A. oryzae genomer.
Speciespecifikke gener koder ofte for regulering og P450’er
Vi ønskede at se, om de artsspecifikke gener kunne knyttes til kendte Flavi-funktioner såsom fødevarefermentering og plante- og menneskepatogenitet. For at gøre dette undersøgte vi de forudsagte funktioner af de artsspecifikke gener ved hjælp af InterPro-, GO- og KOG-annotationer32,33,34,35. Andelen med en funktionel annotation var lav; 20, 12 og 9 % for henholdsvis InterPro, GO og KOG; i alt 21 % havde en annotation (Supplerende figurer 3-5). Dette er en meget høj – men ikke usædvanlig – procentdel af uidentificerbare funktioner.
Vi vil fokusere på InterPro, da det dækker flere gener: De mest almindelige InterPro-funktioner omfatter transkriptionsfaktorer, proteinkinaser, transportører og P450’er (Supplerende fig. 3), som også er betydeligt overrepræsenteret. Selv om disse træk ikke direkte kan knyttes til fødevarefermentering og patogenicitet, er regulering involveret i tilpasning, og P450s spiller roller i både substratnedbrydning og produktion af bioaktive forbindelser, som begge er relevante for svampes patogenicitet.
Species gener er overrepræsenteret i sub-telomeriske regioner
Det er blevet vist, at de sub-telomeriske sekvenser er omfattende omarrangerede regioner i A. nidulans, A. oryzae og A. fumigatus21. Dette ses også hos pattedyr, nematoder og gær36. Tidligere undersøgelser37,38 viste, at sub-telomeriske regioner har en bias for unikke, divergerede eller manglende gener. En anden undersøgelse har vist, at sekundære metabolitgenklynger (SMGC’er) er beriget i sub-telomeriske regioner i A. nidulans og A. fumigatus21.
Vi undersøgte derfor gentætheden og placeringen af artsspecifikke gener, sekundære metabolitklynger og kernegenom ved hjælp af telomer-til-telomer A. oryzae-genom som reference for at vurdere den potentielle overrepræsentation af disse gener i de subtelomere regioner (fig. 3).
Både visuel inspektion og Fishers eksakte test bekræftede, at både artsspecifikke (p-værdi = 7.266e-07) og SMGC’er (p-værdi < 2,2e-16) er beriget mod de sub-telomeriske regioner (100 kbp fra de kromosomale ender), hvor kernegener sjældnere findes ved de sub-telomeriske regioner. Det forhold, at de artsspecifikke gener ikke er tilfældigt fordelt, taler imod, at de blot er annotationer eller genmodelleringsfejl, og indikerer derfor, at de rent faktisk er legitime gener. Fordelingen af de artsspecifikke gener tyder på, at det oftere lykkes at inkorporere nye gener i de subtelomeriske regioner end andre steder. Om dette er resultatet af en udvælgelse til den subtelomeriske region eller en modudvælgelse mod andre regioner eller begge dele, afslører dataene ikke.
Syntenyanalyse afslører øer med meget variabelt genindhold
Synteniske og ikke-synteniske regioner er en anden faktor, der skal tages i betragtning, når man analyserer genomets placering. Det er blevet vist, at A. oryzae-genomet har et mosaikmønster af synteniske og ikke-synteniske regioner i forhold til fjernt beslægtede Aspergilli1,2. Vi undersøgte syntenyforholdene på tværs af sektion Flavi og ind i A. nidulans og A. fumigatus ved at bruge A. oryzae RIB40 som reference (tabel 1). Denne analyse understøtter vores tidligere resultat, at A. oryzae er tættere beslægtet med A. aflatoxiformans end A. flavus.
En oversigt over fælles synteniske gener er illustreret i Supplerende figur 6. Generelt er der færre områder med synteny mod de telomeriske ender, som tidligere set1,2 i en sammenligning af A. nidulans, A. fumigatus og A. oryzae. Vi observerede endvidere, at kromosomerne 1 og 2 har en meget høj grad af bevaret synteny, mens kromosomerne 6 og 8 har en meget lavere bevarelse af synteny.
Vi finder tætte øer af ikke-synteniske gener i ikke-sub-telomeriske regioner på kromosomerne 4, 6 og 8. Disse kan være forårsaget af horisontal genoverførsel (HGT), gen shuffling, eller de novo gen dannelse. Vi undersøgte for HGT’er ved hjælp af BLASTp for at undersøge de bedste hits i NCBI’s nonredundant database. Nylige HGT’er forventes at have høj sekvensidentitet med en anden gruppe af arter, hvor den ville være blevet overført fra, og ikke findes i de nært beslægtede arter39. Ingen af disse øer viste tegn på nyere HGT’er. Desuden var kun 23 af de 80 gener i de ikke-syntetiske blokke A. oryzae-specifikke. Det synes således sandsynligt, at disse ikke-synteniske øer er forårsaget af en blanding af betydelige omlægninger, duplikationshændelser og fremkomsten af A. oryzae-specifikke gener.
Det faktum, at vi observerer nogle meget bevarede kromosomer og nogle stærkt omlagte ikke-synteniske blokke, kunne samlet set indikere et evolutionært pres for stabilitet i nogle regioner, mens andre regioner ofte er udsat for genomlægning og omlægninger, dvs, rearrangement hot spots.
Sektion Flavi er en rig kilde til kulhydrataktive enzymer
Carbohydrate-Active enZymes (CAZymes) er afgørende for, hvilke kulstofkilder en art kan nedbryde og udnytte. Inden for sektion Flavi er CAZymerne/kulstofudnyttelsen hovedsageligt beskrevet for A. oryzae1,2,40 og i mindre grad for A. flavus41,42,43,44,45 og A. flavus41,42,43,44,45 og A. sojae46,47, mens der kun er udført tilfældige undersøgelser af andre arter i denne gruppe48,49,50,51,51,52,53,54, som ofte beskriver produktion eller karakterisering af henholdsvis en bestemt CAZym-aktivitet eller et bestemt CAZym-protein.
Vi brugte CAZy-databasen til at forudsige CAZym-indholdet i genomerne i sektionens genomer (fig. 4). Der blev forudsagt i alt 13 759 CAZymer for de 23 Flavi-arter (gennemsnitligt 598/art). Dette er ganske rigt sammenlignet med den inkluderede reference Aspergilli (508/art).
Det fremgår tydeligt af denne analyse, at der er en tydelig forskel mellem kladerne i afsnit Flavi (Fig. 4b), hvilket igen viser en variation i genindholdet i afsnittet.
Variabelt CAZyme-indhold afspejler ikke evnen til at nedbryde plantebiomasse
For at evaluere den faktiske evne til kulstofudnyttelse på tværs af afsnit Flavi udførte vi vækstprofilering af 31 arter (29 Aspergilli, herunder 23 arter fra afsnit Flavi) på 35 plantebiomasse-relaterede substrater (Fig. 5, Supplerende data 1) og sammenlignede dette med forudsigelsen af CAZyme-genindholdet, der er relateret til nedbrydning af plantebiomasse (Supplerende data 2). I en tidligere undersøgelse kunne variationen i vækst mellem fjernt beslægtede Aspergilli kædes sammen med forskelle i CAZyme-genindholdet55 , men dette var ikke tilfældet for nærmere beslægtede arter fra Aspergillus sektion Nigri16.
Glucose resulterede i den bedste vækst af alle monosaccharider for alle arter og blev derfor brugt som intern reference for vækst (Supplerende fig. 7). Vækst på andre kulstofkilder blev sammenlignet med vækst på d-glucose, og denne relative forskel blev sammenlignet mellem arterne. Vækst på monosakkarider var stort set ens mellem arterne i sektion Flavi (Fig. 5, Supplerende Fig. 7 og Supplerende data 1).
CAZymesættene relateret til nedbrydning af plantebiomasse er generelt meget ens for sektion Flavi (Fig. 5), med undtagelse af A. coremiiformis, som har et stærkt reduceret gensæt. Dette skyldes hovedsagelig en reduktion i glykosidhydrolasefamilier, men også en række familier relateret til nedbrydning af pektin, xylan og xyloglucan. Overraskende nok viste denne art en bedre relativ vækst på xylan end de fleste andre arter, mens væksten på andre polysaccharider hovedsageligt svarede til den i sektion Flavi. Det reducerede gensæt har således ikke reduceret dens evne til at nedbryde plantebiomasse. Dette kunne svare til tilfældet med T. reesei, som også har et reduceret CAZyme-gen-sæt, men som producerer de tilsvarende enzymer i meget høje niveauer56. Oprindelsen af denne tilgang er dog sandsynligvis meget anderledes, da dens CAZyme-indhold blev formet af tab og derefter massiv HGT-gevinst af plantecellevægnedbrydende enzymer57 , mens der ikke er nogen indikationer for dette for A. coremiiformis.
Hydrolytiske forskelle er kladespecifikke inden for sektion Flavi (Supplerende data 2). A. togoensis-kladen har et reduceret sæt af xylanolytiske og xyloglucanolytiske gener, men dette afspejles ikke i væksten. I modsætning hertil er GH115 (alpha-glucuronidase) generne udvidet i kladerne A. flavus, A. tamarii og A. nomius (xylanolytiske enzymer eller aktivitet er blevet rapporteret fra flere arter fra disse klader49,50,51,51,53,58,59,60,61,62), GH62 (arabinoxylan arabinofuranohydrolase) blev udvidet i kladen A. leporis, og kladerne A. leporis og A. avenaceus var de eneste klader med CE15 (glucuronoyl esteraser), som også blev fundet i Aspergillus-arter uden for sektion Flavi.
Den galactomannannedbrydende evne var næsten fuldt ud bevaret i sektion Flavi, men interessant nok var væksten på guargummi, der hovedsagelig består af galactomannan, variabel mellem arterne. På samme måde resulterede den reducerede amylolytiske evne hos kladerne A. togoensis og A. avenaceus ikke i reduceret vækst på stivelse eller maltose.
Variation blev observeret i antallet af pectinolytiske gener. De mest udtalte forskelle var fraværet af PL11 (rhamnogalacturononanlyase) gener fra de fleste arter i sektionen Flavi og udvidelsen af GH78 (alfa-rhamnosidase) i kladerne A. flavus og A. tamarii. Disse forskelle og de mindre forskelle i andre familier resulterede imidlertid ikke i stor variation i vækst på pektin.
Mere tydelige forskelle var der under vækst på cellobiose, laktose og lignin. De fleste arter voksede dårligt på cellobiose på trods af et lignende antal beta-glucosidase-kodende gener i de fleste arter (Supplerende data 2). Tilsvarende var det kun A. arachidicola og i mindre grad A. albertensis, der voksede godt på lactose, mens antallet af beta-galactosidaser hos disse arter svarer til antallet hos de andre arter. Mest interessant var det, at A. albertensis voksede lige så godt på lignin som på d-glucose, hvilket tyder på potentielle anvendelser i biobrændstofproduktion.
Sammenfattende er CAZyme-potentialet i sektion Flavi stort set bevaret (med undtagelse af A. coremiiformis) med nogle variationer i antallet af kopier, men det genomiske potentiale og variationer afspejles ikke nødvendigvis i væksten. Det er derfor sandsynligt, at som tidligere foreslået55 , er de observerede forskelle i høj grad på det regulatoriske niveau.
CAZym-familien GH28 er oppustet i kladen A. flavus
Vi var særligt interesserede i GH28 CAZymer, da de er vigtige for fødevarefermentering og kvaliteten af det endelige fermenterede produkt63. Der blev oprettet et fylogenetisk træ af alle medlemmer af GH28 fra sektion Flavi (Supplerende fig. 8). Træet består af 429 proteiner, i gennemsnit 18,7 pr. art.
Inden for træet er der forskellige grupperinger. Fem grupper har medlemmer fra alle 23 arter, ni grupper mangler en til fire arter (normalt A. coremiiformis og A. caelatus), og to grupper er specifikke for A. flavus-, A. tamarii- og A. nomius-kladerne. Endelig er der otte grupper, der indeholder 2-13 arter, som ikke følger fylogenien – hvilket tyder på, at disse grupper er kilder til GH28-variation.
Generelt har arter fra kladen A. flavus et højt antal GH28-medlemmer. A. sojae er kendt for at have et højt antal GH28-medlemmer, hvilket også ses her med 24 medlemmer; A. sergii har dog et endnu højere antal med 25 medlemmer. Det kunne være interessant at undersøge, om dette kunne udnyttes enten ved at bruge A. sergii som en ny art i fødevarefermentering og/eller som en kilde til nye enzymer.
Analyse af sekundær metabolisme
Slægten Aspergillus er kendt for at producere et stort antal SM’er, og antallet af forudsagte SMGC’er er endnu højere. Størstedelen af de forudsagte SMGC’er er ukarakteriserede og har derfor potentiale til at producere en mangfoldighed af nye, bioaktive forbindelser. Vi undersøgte diversiteten og potentialet for SM-produktion i section Flavi, både kvantitativt med hensyn til antallet af klynger og kvalitativt med hensyn til de forbindelser, som disse klynger potentielt kunne producere.
Sekundær metabolisme i sektion Flavi er mangfoldig og produktiv
For kvantitativt at vurdere potentialet for SM-produktion blev SMGC’er forudsagt ved hjælp af et SMURF-lignende forudsigelsesværktøj64 for alle arter undtagen N. crassa og A. sojae, da disse blev sekventeret ved andre metoder og med uensartede genkaldelsesmetoder (Fig. 6c). Inden for de 28 Aspergillus-arter er der i alt 1972 forudsagte SMGC’er, og for sektion Flavi-genomer er der i alt 1606 SMGC’er (73/art). Det er mere end 15 ekstra pr. art sammenlignet med den meget produktive Penicillium-slægt65.
Vi ønskede at undersøge, hvor unikke SMGC’erne er, og konstruerede derfor familier af SMGC’er (Supplerende data 3). For hele datasættet kunne vi sammenfatte det i 477 SMGC-familier og for afsnit Flavi 308 SMGC-familier. Ud af disse findes 150 SMGC-klynger kun i én art af Flavi-sektionen (fig. 6a), hvilket viser et stort antal unikke klynger i hver art (6,8 unikke SMGC’er/art). Sammenlignet med Aspergillus sektion Nigri er antallet af klynger pr. art i denne undersøgelse lidt lavere, men antallet af medlemmer i hver SMGC-familie er også lavere, hvilket viser en større diversitet i det sekundære stofskifte i sektion Flavi sammenlignet med sektion Nigri.
Dereplikation af sekundær metabolisme forudsiger toksinproducenter
For at vurdere potentialet for SM-produktion kvalitativt anvendte vi en pipeline af “genetisk dereplikation”, hvor forudsagte klynger associeres med verificerede karakteriserede klynger (fra MIBiG-databasen66) i en guilt-by-association-metode67. På grundlag af dette blev 20 klyngefamilier koblet til en sammensat familie (fig. 6b). Nogle klyngefamilier blev fundet i alle eller næsten alle Flavi-genomer, f.eks. dem, der ligner klyngerne naphthopyron68 , nidulanin A69 , azanigeron70 , 4,4′-piperazin-2,5-diyldimethyl-bis-phenol og aflavarin71/endocrocin72,73 . De fleste familier følger generelt de fylogenetiske grupper, hvilket tyder på et tabsbaseret fordelingsmønster, men nogle, som f.eks. SMGC-familierne, der ligner asperfuranon74, pseurotin A75 eller fumagillin76-grupperne, fulgte ikke fylogenien. Desuden blev potentielle producenter af kendte toksiner som aflatoxin og aspirochlorin identificeret (Fig. 6b).
Kombination af data og analyse forbinder en forbindelse til en klynge
I forlængelse af de kendte SMGC-klynger var vi interesseret i at forbinde forbindelser og klynger baseret på tilstedeværelses-/fraværsmønsteret af producerede forbindelser og forudsagte klynger. Vi skabte derfor et varmekort af alle klyngefamilier fundet i mindst fem arter, tilføjede de forudsagte forbindelsesfamilier fra MIBiG-dereplikationen ud over manuelt kuraterede forbindelsesfamilier fra en litteraturundersøgelse (Supplerende fig. 9). Derudover målte vi SM-produktionen af Flavi-arter (Supplerende data 4).
Den særlige interesse var miyakamider. De er oprindeligt isoleret fra et A. flavus-isolat og har vist sig at have antibiotiske egenskaber77 , men den biosyntetiske genklynge er ikke kendt. Vores kemiske analyse viste produktion i A. sojae, A. nomius, A. parasiticus, A. novoparasiticus og A. transmontanensis.
Vi udførte retro-biosyntese ud fra den kemiske struktur og forudsagde, at den biosyntetiske genklynge bør indeholde en nonribosomal peptidsyntase (NRPS) med 2-3 adenyleringsdomæner (da to af de tre aminosyrer ligner hinanden), en N-methyltransferase, en acetyltransferase og potentielt en decarboxylase/dehydrogenase (Supplerende fig. 10A). Ved at søge efter klyngefamilier med medlemmer i alle de miyakamidproducerende arter, der har NRPS-baggrunde med 2-3 adenyleringsdomæner og et methyltransferase-domæne, opfyldte kun én klyngefamilie kravene. Klyngefamilien har en NRPS-ryggekæde med et methyltransferase-domæne, tre A-domæner i de fleste arter og to i A. novoparasiticus. Forudsigelsen af kun to A-domæner skyldes højst sandsynligt en annotationsfejl, da sekvensens lighed er bevaret før genets start (Supplerende fig. 10B). Størrelsen af den forudsagte klynge er 1-9 gener, forskellen er sandsynligvis forårsaget af SMGC-prædiktionsfejl (Synteny plot i Supplerende Fig. 10B). Synteny-plottet viser, at NRPS og to små gener med ukendt funktion er bredt bevaret. Vi foreslår således, at den identificerede NRPS sammen med de to konserverede gener med ukendt funktion sandsynligvis er kandidater til miyakamidbiosyntese.
Den aflatoksinbiosyntetiske genklynge er stærkt konserveret
Den måske bedst kendte sekundære metabolit i sektion Flavi er den stærkt kræftfremkaldende aflatoksin. Aflatoksiner er kendt for at blive produceret af mange Flavi-arter (A. arachidicola, A. luteovirescens, A. flavus, A. minisclerotigenes, A. nomius, A. aflatoxiformans, A. pseudocaelatus, A. pseudonomius, A. pseudotamarii og nogle A. oryzae-isolater)4,10.
Dereplikationsanalysen (Fig. 6b) identificerede en SMGC-familie, der forudsiges at være involveret i sterigmatocystin- og aflatoksinproduktion, hvilket er alle arter i A. flavus-, A. nomius- og A. tamarii-kladerne, undtagen A. tamarii. Et synteny-plot af SMGC-familien (supplerende fig. 11) viser, at klyngen er ekstremt velkonserveret uden omlægninger og med en høj identitetslignende alignmentidentitet for aflatoksin-generne. Kun A. caelatus har en afkortet form med kun aflB-, aflC- og aflD-generne, og A. tamarii ser ud til at have et fuldstændigt tab af klyngen. Det er interessant, at de fleste af de forudsagte klynger ikke omfattede aflP- og aflQ-generne, som er ansvarlige for det sidste trin i aflatoksinbiosyntesen. Vi søgte genomerne for aflP (Supplerende fig. 12) og fandt det i alle genomerne, men med forskellige startsteder og ekstra sekvens i midten af proteinerne. RNA-seq-data understøtter disse modeller (Supplerende fig. 13) og tyder på fejl i A. flavus-genmodellerne. På samme måde er aflQ-genet fundet i alle de andre arter, men 5-10 gener væk fra de forudsagte klynger. En detaljeret analyse viser således, at alle disse arter har de gener, der er nødvendige for aflatoksinbiosyntesen.