En jämförande genomikstudie av 23 Aspergillus-arter från sektion Flavi

Bedömning av 19 nyligen sekvenserade genomer från sektion Flavi

I den här studien presenterar vi helgenomsekvenserna av 19 arter från Aspergillus sektion Flavi (fig. 1b). Två av dessa (A. nomius och A. arachidicola18,19) har också publicerats av andra grupper parallellt med detta arbete. Vi jämför dessa 19 med tidigare sekvenserade arter från sektion Flavi (A. oryzae, A. flavus, A. sojae och A. luteovirescens3,12,13,14) samt åtta referensarter: sex från resten av släktet Aspergillus plus Neurospora crassa och Penicillium digitatum som outgroups (fig. 1a, b).

Fig. 1: Fylogeni och genomstatistik för sektion Flavi plus åtta andra Aspergillus-, Penicillium- och Neurospora-arter.
figur1

a Fylogenetiskt träd som konstruerats med hjälp av RAxML, MUSCLE och Gblocks baserat på 200 monokärniga gener (ett enda homologt i varje art). Den röda stjärnan visar ett osäkert blad som troligen orsakats av en annan genkallasmetod98,99,100, och pilen visar var A. sojae bör placeras i det fylogenetiska trädet. Zoomen visar förgreningen i en klad kring A. oryzae. b Färgerna illustrerar de klader som finns inom sektion Flavi och X anger arter som sekvenserats i den här studien. Tidigare sekvenserade genomer som A. oryzae och A. fumigatus sammanställdes med hjälp av optisk kartläggning och genetiska kartor. c Sju bubbelplottar som illustrerar viktiga genomnummer och parametrar för sekvenseringskvalitet. Bubbelstorlekarna har skalats till varje panel och är inte jämförbara mellan panelerna.

Som ett första grundtest jämfördes kvaliteten på genomsammanställningarna baserat på genomstorlek, GC-innehåll och antal predikterade proteiner (fig. 1c). Detta visade på en rimlig kvalitet på utkastet till genomet med 13 av de 18 genomerna sammansatta i färre än 500 scaffolds (fig. 1c, kolumn 5). En anledning till oro var A. coremiiformis med 2728 scaffolds, vilket fick oss att oroa oss för kvaliteten på geninnehållet. Genomet täcker dock 99,78 % av Benchmarking Universal Single-Copy Orthologs (BUSCO20), och 96 % av EST-klustren (Expressed Sequence Tag) kan kartläggas till genomet. Vi drar därför slutsatsen att annoteringen av genomet är av tillräckligt hög kvalitet för jämförelser av geninnehållet trots det stora antalet scaffolds.

Arter av Aspergillus section Flavi har generellt sett expanderade genomer

Genomstorlekarna hos Aspergillus section Flavi är generellt sett stora jämfört med andra representativa Aspergilli (i genomsnitt 37,96 Mbp jämfört med 31,7 Mbp (Fig. 1c)), vilket tidigare har rapporterats för A. oryzae21. Ett stort undantag är A. coremiiformis, som har både färre gener och ett betydligt mindre genom, vilket gör den unik i sektionen.

Multigenfylogeni visar ett komplext arv från A. oryzae

Nästan undersökte vi de evolutionära relationerna i sektion Flavi baserat på en fylogeni som härrör från 200 gener (fig. 1a). Stödet för förgreningarna inom trädet är högt (100 av 100 bootstraps i de flesta grenar). Trädet bekräftar att sektion Flavi är en monofyletisk grupp. Kladerna i fig. 1a motsvarar ett tidigare rapporterat fylogenetiskt träd baserat på beta-tubulingenen10,11,22 och avstånden mellan sektionerna motsvarar tidigare arbete23.

Ett potentiellt fel i trädet är att A. sojae hittas närmast A. flavus, eftersom A. sojae uppfattas som en domesticerad version av A. parasiticus. Denna förgrening har faktiskt också det lägsta bootstrapvärdet i trädet. Den mest troliga förklaringen är att eftersom A. sojae-genprediktionerna baseras på annoteringarna av A. flavus- och A. oryzae-genomen24,25 skapas en bias i de predikterade generna, och denna bias återspeglas sannolikt i trädet. Som ett test har vi genererat fylogenetiska träd med hjälp av alternativa metoder som inte är beroende av genannotation (CVTree26,27). Dessa visar tydligt att A. sojae ligger närmast A. parasiticus, både när man använder helgenom- och proteomsekvenser (kompletterande figur 1 och kompletterande figur 2). Vi anser därför att A. sojae bör placeras bredvid A. parasiticus i det fyogenetiska trädet som pilen anger i figur 1a.

För övrigt är A. oryzae, som uppfattas som en domesticerad version av A. flavus10,28,29,30, inte direkt bredvid den i trädet. Det har dock tidigare föreslagits att A. oryzae härstammar från en förfader som var förfader till A. minisclerotigenes eller A. aflatoxiformans31. Fylogenin (fig. 1a, zoom) stöder detta förslag och visar att A. minisclerotigenes och A. aflatoxiformans är närmare släkt med A. oryzae än A. flavus.

Analys av gemensamma proteiner bekräftar hög genetisk mångfald

För att undersöka centrala egenskaper som delas av alla arter i sektionen Flavi, klasser samt egenskaper hos enskilda arter, gjorde vi en analys av gemensamma homologa gener inom och mellan arter16 och sorterade dessa i homologa proteinfamiljer (fig. 2). Detta gjorde det möjligt att identifiera (1) De centrala genomproteinfamiljerna med minst en medlem i alla jämförda arter. Detta förväntas täcka essentiella proteiner. (2) Sektionsspecifika och kladspecifika gener – gener som har homologer hos alla medlemmar i en klad/sektion, men inte hos någon annan art. (3) Artspecifika gener – gener utan homologer hos någon annan art i jämförelsen.

Figur 2: Kärnspecifika, sektionsspecifika och kladspecifika och artspecifika gener.
figur2

a Ett dendrogram som representerar det fylogenetiska förhållandet mellan de 29 Aspergilli. De svarta rutorna i noderna representerar de homologa proteinfamiljer som delas mellan de arter som förgrenar sig från den noden. De vita rutorna i spetsarna representerar de proteinfamiljer som är unika för den enskilda arten. b Ett stapeldiagram som visar antalet totala (gröna), centrala (turkosa) och artspecifika (orange) proteiner för varje art. Den mörka skuggningen illustrerar antalet proteiner med minst en funktionell annotation baserad på InterPro32.

Kärngenomet för alla 31 arter i detta dataset är 2082 proteinfamiljer. För de 29 Aspergillus-arterna är denna siffra 3853, och enbart för avsnittet Flavi-arter utgör 4903 proteinfamiljer. Således varierar mer än hälften av genomet för section Flavi-arter mellan arterna.

Om man granskar de klasspecifika proteinfamiljerna hittas endast ett mycket litet antal (27-54) (fig. 2a), vilket är lågt jämfört med section Nigri som undersökts tidigare16. Eftersom sektion Nigri och Flavi är ungefär lika artrika kan detta tyda på att arterna i sektion Flavi är mer distinkta. Detta stöds av att antalet artspecifika gener är mycket högt (166-2181), där vi ser 166 (A. sojae) som ett artificiellt lågt antal, på grund av att genkallningen i detta genom baseras på A. flavus- och A. oryzae-genom.

Artspecifika gener kodar ofta för reglering och P450

Vi ville se om de artspecifika generna kunde kopplas till kända Flavi-funktioner, t.ex. fermentering av livsmedel och patogenitet hos växter och människor. För att göra detta undersökte vi förutsedda funktioner för de artspecifika generna med hjälp av InterPro-, GO- och KOG-annotationer32,33,34,35. Andelen med en funktionell annotering var låg; 20, 12 och 9 % för InterPro, GO respektive KOG; totalt hade 21 % en annotering (kompletterande figurer 3-5). Detta är en mycket hög – men inte ovanlig – andel oidentifierbara funktioner.

Vi kommer att fokusera på InterPro eftersom den täcker fler gener: de vanligaste InterPro-funktionerna omfattar transkriptionsfaktorer, proteinkinaser, transportörer och P450 (kompletterande figur 3), som också är betydligt överrepresenterade. Även om dessa egenskaper inte direkt kan kopplas till livsmedelsfermentering och patogenitet är reglering involverad i anpassning och P450s spelar roller i både substratnedbrytning och produktion av bioaktiva föreningar, vilka båda är relevanta för svampens patogenitet.

Species gener är överrepresenterade i subtelomeriska regioner

Det har visats att de subtelomeriska sekvenserna är omfattande omarrangerade regioner i A. nidulans, A. oryzae och A. fumigatus21. Detta ses också hos däggdjur, nematoder och jäst36. Tidigare studier37,38 visade att subtelomeriska regioner har en bias för unika, divergerande eller saknade gener. En annan studie har visat att sekundärmetabolitgenkluster (SMGC) är berikade i subtelomeriska regioner i A. nidulans och A. fumigatus21.

Vi undersökte därför gentätheten och placeringen av artspecifika gener, sekundärmetabolitkluster och kärngenom, genom att använda telomer-till-telomer A. oryzae-genom som en referens för att bedöma den potentiella överrepresentationen av dessa gener i de subtelomeriska regionerna (fig. 3).

Fig. 3: Placering av artspecifika och sekundära metabolitgener i A. oryzae-genom.
figure3

Den gråa staplarna representerar A. oryzae-genom. Ovanför kromosomen är de artspecifika (turkos) och sekundära metabolitgener (orange) kartlagda till genomet, varje linje representerar en gen. Kurvan visar den procentuella tätheten beräknad utifrån det totala antalet gener inom 30 kbp i steg om 5 kb. Under genomet kartläggs kärngenerna av de grå prickarna och tätheten av det totala antalet gener visas av den svarta grafen (med ett fönster på 30 kbp).

Både visuell inspektion och Fishers exakta test bekräftade att både artspecifika (p-värde = 7.266e-07) och SMGCs (p-värde < 2,2e-16) är berikade mot de subtelomeriska regionerna (100 kbp från de kromosomala ändarna), där kärngener finns mindre ofta vid de subtelomeriska regionerna. Det faktum att de artspecifika generna inte är slumpmässigt fördelade talar mot att de helt enkelt är annoterings- eller genmodelleringsfel, vilket därför tyder på att de faktiskt är legitima gener. Fördelningen av de artspecifika generna tyder på att nya gener oftare framgångsrikt införlivas i de subtelomeriska regionerna än på andra platser. Huruvida detta är resultatet av ett urval för den subtelomeriska regionen, eller ett motval mot andra regioner, eller båda, avslöjar inte uppgifterna.

Syntenyanalys avslöjar öar med mycket varierande geninnehåll

Synteniska och icke-synteniska regioner är en annan faktor att ta hänsyn till när man analyserar genomets placering. Det har visats att A. oryzae-genomet har ett mosaikmönster av synteniska och icke-synteniska regioner i förhållande till avlägset besläktade Aspergilli1,2. Vi undersökte synténin över sektion Flavi och in i A. nidulans och A. fumigatus med A. oryzae RIB40 som referens (tabell 1). Denna analys stöder vårt tidigare resultat att A. oryzae är närmare besläktad med A. aflatoxiformans än A. flavus.

Tabell 1 Procentuell andel av genomet med bevarad synteni i förhållande till A. oryzae.

En översikt över delade synteniska gener illustreras i den kompletterande fig. 6. Generellt sett finns det färre områden med synteni mot de telomeriska ändarna, vilket tidigare setts1,2 i en jämförelse mellan A. nidulans, A. fumigatus och A. oryzae. Vi observerade vidare att kromosomerna 1 och 2 har en mycket hög grad av bevarad synteni, medan kromosomerna 6 och 8 har en mycket lägre grad av bevarad synteni.

Vi finner täta öar av icke-synteniska gener i icke-subtelomeriska regioner på kromosomerna 4, 6 och 8. Dessa kan orsakas av horisontell genöverföring (HGT), genblandning eller de novo genbildning. Vi undersökte HGT med hjälp av BLASTp för att undersöka de bästa träffarna i NCBI:s icke-förnybara databas. Nya HGT:er förväntas ha hög sekvensidentitet med en annan grupp av arter där den skulle ha överförts från, och inte finnas i de närbesläktade arterna39. Ingen av dessa öar visade tecken på nyligen genomförda HGTs. Dessutom var endast 23 av de 80 generna i de icke-syntetiska blocken A. oryzae-specifika. Det verkar därför troligt att dessa icke-synteniska öar orsakas av en blandning av betydande omarrangemang, duplikationshändelser och uppkomsten av A. oryzae-specifika gener.

Tillsammantaget kan det faktum att vi observerar några mycket bevarade kromosomer och några mycket omarrangerade icke-synteniska block tyda på ett evolutionärt tryck på stabilitet i vissa regioner medan andra regioner ofta är utsatta för genomflyttning och omarrangemang, dvs,

Sektion Flavi är en rik källa till kolhydrataktiva enzymer

Carbohydrate-Active enZymes (CAZymes) är viktiga för vilka kolkällor en art kan bryta ner och utnyttja. Inom sektionen Flavi beskrivs CAZymes/kolanvändning främst för A. oryzae1,2,40 och i mindre utsträckning för A. flavus41,42,43,44,45 och A. flavus41,42,43,44,45. sojae46,47, medan endast tillfälliga studier har utförts med andra arter i denna grupp48,49,50,51,52,53,54, som ofta beskriver produktion eller karakterisering av en viss CAZym-aktivitet eller ett visst CAZym-protein, respektive.

Vi använde CAZy-databasen för att förutsäga CAZym-innehållet i sektionens genomer (fig. 4). Totalt förutsades 13 759 CAZymes för de 23 Flavi-arterna (i genomsnitt 598/art). Detta är ganska rikt jämfört med den inkluderade referensen Aspergilli (508/art).

Fig. 4: Kolhydrataktiva enzymer (CAZymes) i sektionen Flavi.
Figur4

a Det totala antalet CAZymes i varje art fördelat på sex kategorier av enzymaktivitet: hjälpaktiviteter, kolhydratbindande molekyler, kolhydratesteraser, glykosidhydrolaser, glykosyltransferaser och polysackaridlyaser. b Boxplot som representerar mångfalden av CAZyme-familjens innehåll och abundans bland klassen A. flavus (ljusblått), A. tamarii (gult), A. nomius (mörkblått), A. alliaceus (ljust turkos), resten av Flavi-sektionen (orange), andra Aspergilli (mörkt turkos) och arter som inte är Aspergillus-arter (grått). För varje CAZymklass visas det totala antalet CAZymer (övre raden) och antalet unika CAZymfamiljer (nedre raden). I boxplotten representerar mittlinjen medianen, boxens övre och nedre gräns representerar tredje och första kvartilen, och whiskers sträcker sig upp till 1,5 gånger interkvartilen.

Det framgår tydligt av denna analys att det finns en tydlig skillnad mellan kladerna i sektion Flavi (Fig. 4b), vilket återigen visar på en variation av geninnehållet i sektionen.

Variabelt CAZyme-innehåll återspeglar inte förmågan att bryta ned växtbiomassa

För att utvärdera den faktiska förmågan att utnyttja kolet i hela Flavi-sektionen utförde vi tillväxtprofilering av 31 arter (29 Aspergilli, inklusive 23 arter från Flavi-sektionen) på 35 substrat som är relaterade till växtbiomassa (fig. 5, tilläggsdata 1) och jämförde detta med förutsägelsen av CAZyme-geninnehållet som är relaterat till nedbrytning av växtbiomassa (tilläggsdata 2). I en tidigare studie kunde variationen i tillväxt mellan avlägset besläktade Aspergilli kopplas till skillnader i CAZyme-geninnehåll55 , men detta var inte fallet för närmare besläktade arter från Aspergillus sektion Nigri16.

Fig. 5: Kolhydrataktiva enzymer i sektion Flavi sorterade enligt fylogrammet i fig. 1.
figur5

a Värmekarta som representerar tillväxtprofilerna för 23 Flavi-arter och ytterligare 8 arter på 35 olika medier. b Jämförelse av CAZyme-uppsättningarna som är relaterade till nedbrytning av växtbiomassa i genomerna hos arter från Aspergillus sektion Flavi, och några andra svampar. Färgerna återspeglar de polysackarider som enzymerna är aktiva mot.

Glukos resulterade i den bästa tillväxten av alla monosackarider för alla arter och användes därför som en intern referens för tillväxt (kompletterande fig. 7). Tillväxt på andra kolkällor jämfördes med tillväxt på d-glukos och denna relativa skillnad jämfördes mellan arterna. Tillväxten på monosackarider var i stort sett likartad mellan arterna i sektion Flavi (fig. 5, kompletterande fig. 7 och kompletterande data 1).

CAZyme-uppsättningarna relaterade till nedbrytning av växtbiomassa är överlag mycket likartade för sektion Flavi (fig. 5), med undantag för A. coremiiformis, som har en starkt reducerad genuppsättning. Detta beror främst på en minskning av glykosidhydrolasfamiljerna, men även ett antal familjer relaterade till nedbrytning av pektin, xylan och xyloglukan. Överraskande nog visade denna art bättre relativ tillväxt på xylan än de flesta andra arter, medan tillväxten på andra polysackarider i huvudsak liknade den hos sektion Flavi. Den reducerade genuppsättningen har alltså inte minskat dess förmåga att bryta ned växtbiomassa. Detta skulle kunna likna fallet med T. reesei, som också har en reducerad CAZyme-genuppsättning, men som producerar motsvarande enzymer i mycket höga nivåer56. Ursprunget till detta tillvägagångssätt är dock troligen mycket annorlunda eftersom dess CAZyme-innehåll formades genom förlust och sedan massiv HGT-vinst av växtcellväggsnedbrytande enzymer57, medan det inte finns några indikationer på detta för A. coremiiformis.

Hydrolytiska skillnader är klassspecifika inom sektion Flavi (Supplementary Data 2). A. togoensis-kladen har en reducerad uppsättning xylanolytiska och xyloglukanolytiska gener, men detta återspeglas inte i tillväxten. Däremot är GH115-gener (alfa-glukuronidas) expanderade i kladerna A. flavus, A. tamarii och A. nomius (xylanolytiska enzymer eller xylanolytisk aktivitet har rapporterats från flera arter från dessa klasser49,50,51,51,53,58,59,60,61,62), GH62 (arabinoxylan-arabinofuranohydrolas) expanderade i kladen A. leporis, och kladerna A. leporis och A. avenaceus var de enda kladerna med CE15 (glukuronoylesteraser), som också fanns i Aspergillus-arter utanför sektion Flavi.

Förmågan att bryta ned galaktomannan var nästan helt bevarad i sektion Flavi, men intressant nog varierade tillväxten på guarkärnmjöl, som huvudsakligen består av galaktomannan, mellan arterna. På samma sätt resulterade den minskade amylolytiska förmågan hos kladerna A. togoensis och A. avenaceus inte i minskad tillväxt på stärkelse eller maltos.

Variation observerades i antalet pektinolytiska gener. De mest uttalade skillnaderna var frånvaron av PL11-gener (rhamnogalacturonanlyas) från de flesta arter i sektionen Flavi och expansionen av GH78 (alfa-rhamnosidas) i klasser A. flavus och A. tamarii. Dessa skillnader och de mindre skillnaderna i andra familjer resulterade dock inte i någon större variation vid tillväxt på pektin.

Mer uppenbara skillnader fanns vid tillväxt på cellobiose, laktos och lignin. De flesta arter växte dåligt på cellobiose trots liknande antal betaglukosidasekodande gener hos de flesta arter (Supplementary Data 2). På samma sätt växte endast A. arachidicola, och i mindre utsträckning A. albertensis, bra på laktos, samtidigt som antalet betagalaktosidaser hos dessa arter liknar antalet hos de andra arterna. Mest intressant var upptäckten att A. albertensis växte lika bra på lignin som på d-glukos, vilket tyder på potentiella tillämpningar inom biobränsleproduktion.

Sammanfattningsvis är CAZyme-potentialen i sektion Flavi i stort sett bevarad (med undantag för A. coremiiformis) med vissa variationer i antalet kopior, men den genomiska potentialen och variationerna återspeglas inte nödvändigtvis i tillväxten. Det är därför troligt att de observerade skillnaderna, som tidigare föreslagits55 , till stor del ligger på den regulatoriska nivån.

CAZymfamiljen GH28 är uppblåst i klassen A. flavus

Vi var särskilt intresserade av GH28 CAZymer, eftersom de är viktiga för fermentering av livsmedel och kvaliteten på den slutliga fermenterade produkten63. Ett fylogenetiskt träd skapades av alla medlemmar av GH28 från sektionen Flavi (Supplementary Fig. 8). Trädet består av 429 proteiner, i genomsnitt 18,7 per art.

I trädet finns olika grupperingar. Fem grupper har medlemmar från alla 23 arter, nio grupper saknar en till fyra arter (vanligtvis A. coremiiformis och A. caelatus) och två grupper är specifika för A. flavus-, A. tamarii- och A. nomius-kladerna. Slutligen finns det åtta grupper som innehåller 2-13 arter och som inte följer fylogenin – vilket tyder på att dessa är källor till GH28-variation.

I allmänhet har arter från kladen A. flavus ett stort antal GH28-medlemmar. A. sojae är känd för att ha ett högt antal GH28, vilket också ses här med 24 medlemmar, men A. sergii har ett ännu högre antal med 25 medlemmar. Det skulle kunna vara intressant att undersöka om detta kan utnyttjas antingen genom att använda A. sergii som en ny art i livsmedelsfermentering och/eller som en källa till nya enzymer.

Analys av sekundärmetabolism

Släktet Aspergillus är känt för att producera ett stort antal SM:s och antalet förutsagda SMGC:s är ännu högre. Majoriteten av de förutspådda SMGC:erna är okarakteriserade och har därför potential att producera en mångfald av nya, bioaktiva föreningar. Vi undersökte mångfalden och potentialen för SM-produktion i sektion Flavi, både kvantitativt när det gäller antalet kluster och kvalitativt när det gäller de föreningar som dessa kluster potentiellt skulle kunna producera.

Den sekundära metabolismen i sektion Flavi är mångsidig och produktiv

För att kvantitativt bedöma potentialen för SM-produktion förutspåddes SMGCs med hjälp av ett SMURF-liknande prediktionsverktyg64 för alla arter utom N. crassa och A. sojae, eftersom dessa sekvenserades med andra metoder och med olikartade metoder för genuppropning (fig. 6c). Inom de 28 Aspergillus-arterna finns det totalt 1972 förutspådda SMGC:er och för sektion Flavi-genom är det totalt 1606 SMGC:er (73/art). Detta är mer än 15 extra per art jämfört med det mycket produktiva Penicillium-släktet65.

Fig. 6: Dereplikation av kända föreningar och förutspådda sekundärmetabolitryggsäcksgener per art.
figur6

a Ett dendrogram som representerar det fylogenetiska förhållandet mellan arterna. De svarta rutorna i noderna representerar de familjer av genkluster för sekundära metaboliter (SMGC) som delas mellan de arter som förgrenar sig från den noden. Om det inte finns någon svart ruta finns det inga gemensamma kluster. De grå rutorna i spetsarna visar antalet unika SMGC-familjer som endast finns hos en art för Flavi-sektionen. b Matris som visar förekomst och frånvaro av SMGC-familjer kopplade till kända kluster från MIBiG-databasen66 för varje art. Översikt över klusterfamiljen för aflatoxin finns i kompletterande figur 11. c Förutsedda sekundärmetabolitgener för varje art uppdelade efter ryggmärgsenzym. DMAT: dimetylallyltransferas (prenyltransferaser), HYBRID: en ryggmärgsgen som innehåller domäner från NRPS- och PKS-ryggmärken, NRPS: icke-ribosomalt peptidsyntetas, NRPS-liknande: PKS: polyketidsyntas, PKS-liknande: polyketidsyntasliknande, som innehåller minst två NRPS-specifika domäner och en annan domän eller en NRPS A-domän i kombination med NAD-bindande 4-domän eller kortkedjedehydrogenas, PKS: polyketidsyntas, PKS-liknande: polyketidsyntasliknande, som innehåller minst två PKS-specifika domäner och en annan domän, TC: terpencyklas.

Vi ville undersöka hur unika SMGC:erna är och konstruerade därför familjer av SMGC:er (Supplementary Data 3). För hela datasetet kunde vi dela in det i 477 SMGC-familjer och för sektion Flavi 308 SMGC-familjer. Av dessa finns 150 SMGC-kluster endast i en art av sektion Flavi (fig. 6a), vilket visar på ett stort antal unika kluster i varje art (6,8 unika SMGC:er/art). Jämfört med Aspergillus sektion Nigri är antalet kluster per art i denna studie något lägre, men antalet medlemmar i varje SMGC-familj är också lägre, vilket visar på en större mångfald i sekundärmetabolismen i sektion Flavi jämfört med sektion Nigri.

Dereplikation av sekundärmetabolism förutsäger toxinproducenter

För att kvalitativt bedöma potentialen för SM-produktion använde vi en pipeline av ”genetisk dereplikation” där förutspådda kluster associeras med verifierade karakteriserade kluster (från MIBiG-databasen66) i en guilt-by-association-metod67. Baserat på detta kopplades 20 klusterfamiljer till en sammansatt familj (fig. 6b). Vissa klusterfamiljer fanns i alla eller nästan alla Flavi-genom, t.ex. de som liknar klustren naftopyron68 , nidulanin A69 , azanigeron70 , 4,4′-piperazin-2,5-diyldimetyl-bisfenol och aflavarin71/endokrocin72,73 . De flesta familjerna följer i allmänhet de fylogenetiska grupperna, vilket tyder på ett förlustbaserat fördelningsmönster, men vissa, som SMGC-familjerna som liknar asperfuranon74, pseurotin A75 eller fumagillin76-klustren, följde inte fylogenin. Dessutom identifierades potentiella producenter av kända toxiner som aflatoxin och aspiroklorin (Fig. 6b).

Kombination av data och analys länkar en förening till ett kluster

Med utgångspunkt i de kända SMGC-klustren var vi intresserade av att länka föreningar och kluster baserat på närvaro-/frånvaromönstret av producerade föreningar och förutsagda kluster. Vi skapade därför en värmekarta över alla klusterfamiljer som hittades i minst fem arter, lade till de förutspådda föreningsfamiljerna från MIBiG-dereplikationen, utöver manuellt kurerade föreningsfamiljer från en litteraturstudie (kompletterande fig. 9). Dessutom mätte vi SM-produktionen hos Flavi-arterna (Supplementary Data 4).

Ett särskilt intresse var miyakamider. De har ursprungligen isolerats från ett A. flavus-isolat och visat sig ha antibiotiska egenskaper77 , men det biosyntetiska genklustret är inte känt. Vår kemiska analys visade produktion i A. sojae, A. nomius, A. parasiticus, A. novoparasiticus och A. transmontanensis.

Vi utförde retro-biosyntes från den kemiska strukturen och förutspådde att det biosyntetiska genklustret bör innehålla ett nonribosomalt peptidsyntetas (NRPS) med 2-3 adenyleringsdomäner (eftersom två av de tre aminosyrorna är likartade), ett N-metyltransferas, ett acetyltransferas och potentiellt ett decarboxylas/dehydrogenas (kompletterande fig. 10A). När man sökte efter klusterfamiljer med medlemmar i alla miyakamidproducerande arter som har NRPS-ryggstammar med 2-3 adenyleringsdomäner och en metyltransferasdomän var det bara en klusterfamilj som uppfyllde kraven. Klusterfamiljen har en NRPS-ryggrad med en metyltransferasdomän, tre A-domäner i de flesta arter och två i A. novoparasiticus. Prediktionen av endast två A-domäner orsakas sannolikt av annoteringsfel eftersom sekvenslikheten är bevarad före genens början (kompletterande figur 10B). Storleken på det förutspådda klustret är 1-9 gener, skillnaden orsakas sannolikt av SMGC-förutsägelsefel (Synteny plot i kompletterande fig. 10B). Syntenyplotten visar att NRPS och två små gener med okänd funktion är allmänt konserverade. Vi föreslår därför att den identifierade NRPS tillsammans med de två bevarade generna med okänd funktion är troliga kandidater för miyakamidbiosyntesen.

Det biosyntetiska genklustret för aflatoxin är mycket bevarat

Den kanske mest kända sekundärmetaboliten i sektion Flavi är det starkt cancerframkallande aflatoxinet. Det är känt att aflatoxiner produceras av många arter i Flavi-sektionen (A. arachidicola, A. luteovirescens, A. flavus, A. minisclerotigenes, A. nomius, A. aflatoxiformans, A. pseudocaelatus, A. pseudonomius, A. pseudotamarii och vissa A. oryzae-isolat)4,10 .

Dereplikationsanalysen (fig. 6b) identifierade en SMGC-familj som förutspås vara involverad i sterigmatocystin- och aflatoxinproduktion, vilket är alla arter i A. flavus-, A. nomius- och A. tamarii-kladerna utom A. tamarii. En syntenyplott av SMGC-familjen (kompletterande figur 11) visar att klustret är extremt välkonserverat utan några omarrangemang och med en hög likhet i anpassningen för aflatoxingenerna. Endast A. caelatus har en trunkerad form med endast aflB-, aflC- och aflD-generna och A. tamarii verkar ha en fullständig förlust av klustret. Intressant nog innehöll de flesta av de förutspådda klustren inte aflP- och aflQ-generna som är ansvariga för det sista steget i aflatoxinbiosyntesen. Vi sökte i genomerna efter aflP (Supplementary Fig. 12) och hittade den i alla genomer, men med olika startplatser och extra sekvens i mitten av proteinerna. RNA-seq-data stöder dessa modeller (kompletterande fig. 13) och tyder på fel i A. flavus-genmodellerna. På samma sätt finns aflQ-genen i alla de andra arterna, men 5-10 gener bort från de förutspådda klustren. En detaljerad analys visar alltså att alla dessa arter har de gener som krävs för biosyntesen av aflatoxin.