Studiu de genomică comparativă a 23 de specii de Aspergillus din secțiunea Flavi

Evaluarea a 19 genomuri recent secvențiate din secțiunea Flavi

În acest studiu, prezentăm secvențele genomului complet a 19 specii din secțiunea Aspergillus Flavi (Fig. 1b). Două dintre acestea (A. nomius și A. arachidicola18,19) au fost, de asemenea, publicate de alte grupuri în paralel cu această lucrare. Comparăm aceste 19 specii cu speciile secțiunii Flavi secționate anterior (A. oryzae, A. flavus, A. sojae și A. luteovirescens3,12,13,14), precum și cu opt specii de referință: șase din restul genului Aspergillus, plus Neurospora crassa și Penicillium digitatum ca și grupuri de referință (Fig. 1a, b).

Fig. 1: Filogenia și statisticile genomului secțiunii Flavi plus alte opt specii de Aspergillus, Penicillium și Neurospora.
figură1

a Arbore filogenetic construit cu ajutorul RAxML, MUSCLE și Gblocks pe baza a 200 de gene monocore (un singur omolog în fiecare dintre specii). Steaua roșie indică o frunză incertă, cel mai probabil cauzată de o metodă diferită de apelare a genelor98,99,100, iar săgeata arată unde ar trebui să fie plasat A. sojae în arborele filogenetic. Zoomul arată ramificarea într-o cladă din jurul lui A. oryzae. b Culorile ilustrează cladele găsite în cadrul secțiunii Flavi, iar X indică speciile secvențiate în acest studiu. Genomurile secvențiate anterior, cum ar fi A. oryzae și A. fumigatus, au fost asamblate utilizând cartografierea optică și hărțile genetice. c Șapte diagrame cu bule care ilustrează numerele cheie ale genomului și parametrul de calitate al secvențierii. Dimensiunile bulelor au fost scalate pentru fiecare panou și nu sunt comparabile între panouri.

Ca un prim test de bază, calitatea ansamblurilor de genomuri a fost comparată pe baza dimensiunii genomului, a conținutului GC și a numărului de proteine prezise (Fig. 1c). Aceasta a arătat o calitate rezonabilă a proiectului de genom, 13 din cele 18 genomuri fiind asamblate în mai puțin de 500 de schele (Fig. 1c, coloana 5). Un motiv de alarmă a fost A. coremiiformis, cu 2728 de schele, ceea ce ne-a făcut să ne îngrijorăm cu privire la calitatea conținutului genetic. Cu toate acestea, genomul acoperă 99,78% din Benchmarking Universal Single-Copy Orthologs (BUSCO20), iar 96% din clusterele de etichete de secvență exprimată (EST) pot fi cartografiate la genom. Prin urmare, concluzionăm că adnotarea genomului este de o calitate suficient de ridicată pentru comparații ale conținutului genetic, în ciuda numărului mare de schelete.

Speciile din secțiunea Flavi au, în general, genomuri extinse

Dimensiunile genomului de Aspergillus secțiunea Flavi sunt, în general, mari în comparație cu alte Aspergilli reprezentative (medie de 37,96 Mbp față de 31,7 Mbp (Fig. 1c)), așa cum a fost raportat anterior pentru A. oryzae21. O excepție majoră este A. coremiiformis, care are atât mai puține gene, cât și un genom considerabil mai mic, ceea ce îl face unic în cadrul secțiunii.

Filogenia multigenă arată moștenirea complexă a lui A. oryzae

În continuare, am examinat relațiile evolutive în secțiunea Flavi pe baza unei filogenii derivate din 200 de gene (Fig. 1a). Suportul ramificațiilor din cadrul arborelui este ridicat (100 din 100 de bootstraps în majoritatea ramurilor). Arborele confirmă faptul că secțiunea Flavi este un grup monofiletic. Cladele din Fig. 1a corespund unui arbore filogenetic raportat anterior pe baza genei beta-tubulinei10,11,22, iar distanțele dintre secțiuni corespund unor lucrări anterioare23.

O potențială eroare în arbore este că A. sojae se găsește cel mai aproape de A. flavus, deoarece A. sojae este percepută ca o versiune domesticită a A. parasiticus. Această ramificare are, într-adevăr, și cea mai mică valoare bootstrap din arbore. Cea mai probabilă explicație este că, deoarece predicțiile genei A. sojae se bazează pe adnotările genomului A. flavus și A. oryzae24,25 , se creează o prejudecată în genele prezise, iar această prejudecată se reflectă probabil în arbore. Ca un test, am generat arbori filogenetici utilizând metode alternative care nu depind de adnotarea genelor (CVTree26,27). Aceștia arată în mod clar că A. sojae este cel mai apropiat de A. parasiticus, atât atunci când se utilizează secvențele întregului genom, cât și cele ale proteomului (Fig. suplimentară 1 și Fig. suplimentară 2). Prin urmare, considerăm că A. sojae ar trebui să fie plasat alături de A. parasiticus în arborele fitogenetic, așa cum indică săgeata din Fig. 1a.

În plus, A. oryzae, perceput ca o versiune domesticită a lui A. flavus10,28,28,29,30, nu se află direct lângă acesta în arbore. Cu toate acestea, s-a sugerat anterior că A. oryzae descinde dintr-un strămoș care a fost strămoșul lui A. minisclerotigenes sau A. aflatoxiformans31. Filogenia (Fig. 1a, zoom) susține această sugestie, arătând că A. minisclerotigenes și A. aflatoxiformans sunt rude mai apropiate de A. oryzae decât A. flavus.

Analiza proteinelor comune confirmă diversitatea genetică ridicată

Pentru a examina trăsăturile de bază împărtășite de toate speciile din secțiunea Flavi, cladele, precum și trăsăturile speciilor individuale, am făcut o analiză a genelor omoloage comune în cadrul și între specii16, și le-am sortat în familii de proteine omoloage (Fig. 2). Acest lucru a permis identificarea (1) Familiilor de bază genom-proteine cu cel puțin un membru în toate speciile comparate. Se așteaptă ca aceasta să acopere proteinele esențiale. (2) Genele specifice unei secțiuni și specifice unui clad – gene care au omologi în toți membrii unui clad/secțiune, dar nu la nicio altă specie. (3) Gene specifice speciilor – gene care nu au omologi în nicio altă specie din comparație.

Figura 2: Gene specifice nucleului, specifice secțiunii și gene specifice cladelor și speciilor unice.
figura2

a O dendrogramă care reprezintă relația filogenetică dintre cei 29 de Aspergilli. Cutiile negre din noduri reprezintă familiile de proteine omoloage împărtășite între speciile care se ramifică din acel nod. Căsuțele albe de la vârfuri reprezintă familiile de proteine unice pentru acea specie individuală. b Un barplot care arată numărul de proteine totale (verde), de bază (turcoaz) și specifice fiecărei specii (portocaliu) pentru fiecare specie. Umbrirea întunecată ilustrează numărul de proteine cu cel puțin o adnotare funcțională bazată pe InterPro32.

Genomul de bază al tuturor celor 31 de specii din acest set de date este de 2082 de familii de proteine. Pentru cele 29 de specii de Aspergillus, acest număr este de 3853, iar numai pentru specia Flavi din secțiunea Flavi constituie 4903 familii de proteine. Astfel, mai mult de jumătate din genomul speciilor din secțiunea Flavi variază de la o specie la alta.

Examinând familiile de proteine specifice cladelor, se găsesc doar foarte puține (27-54) (Fig. 2a), ceea ce este scăzut în comparație cu secțiunea Nigri examinată anterior16. Deoarece secțiunile Nigri și Flavi sunt aproximativ la fel de bogate în specii, acest lucru ar putea indica faptul că speciile din secțiunea Flavi sunt mai distincte. Acest lucru este susținut de faptul că numărul de gene specifice speciilor este foarte mare (166-2181), unde vedem că 166 (A. sojae) este un număr scăzut în mod artificial, datorită faptului că apelarea genelor din acest genom se bazează pe genomurile A. flavus și A. oryzae.

Gene specifice speciilor codifică adesea reglajul și P450s

Am vrut să vedem dacă genele specifice speciilor ar putea fi legate de funcțiile cunoscute ale Flavi, cum ar fi fermentarea alimentelor și patogenitatea plantelor și a oamenilor. Pentru a face acest lucru, am examinat funcțiile prezise ale genelor specifice speciilor utilizând adnotările InterPro, GO și KOG32,33,33,34,35. Porțiunea cu o adnotare funcțională a fost scăzută; 20, 12 și 9 % pentru InterPro, GO și, respectiv, KOG; în total, 21 % au avut o adnotare (figurile suplimentare 3-5). Acesta este un procent foarte ridicat – dar nu neobișnuit – de funcții neidentificabile.

Ne vom concentra pe InterPro, deoarece acoperă mai multe gene: cele mai frecvente funcții InterPro includ factori de transcripție, proteine kinazice, transportatori și P450 (Fig. suplimentară 3), care sunt, de asemenea, suprareprezentate în mod semnificativ. Deși aceste trăsături nu pot fi legate direct de fermentația alimentară și de patogenitate, reglarea este implicată în adaptare, iar P450s joacă roluri atât în degradarea substratului, cât și în producția de compuși bioactivi, ambele relevante pentru patogenitatea fungică.

Genele speciilor sunt suprareprezentate în regiunile subtelomerice

S-a demonstrat că secvențele subtelomerice sunt regiuni reordonate în mod extensiv la A. nidulans, A. oryzae și A. fumigatus21. Acest lucru se observă, de asemenea, la mamifere, nematode și drojdii36. Studii anterioare37,38 au arătat că regiunile subtelomerice au o predispoziție pentru gene unice, divergente sau lipsă. Un alt studiu a arătat că grupurile de gene de metaboliți secundari (SMGC) sunt îmbogățite în regiunile subtelomerice la A. nidulans și A. fumigatus21.

Prin urmare, am examinat densitatea genică și localizarea genelor specifice speciilor, a grupurilor de metaboliți secundari și a nucleului genomului, utilizând intervalul de telomer la telomer A. fumigatus. oryzae ca referință, pentru a evalua potențiala suprareprezentare a acestor gene în regiunile subtelomerice (Fig. 3).

Fig. 3: Localizarea genelor specifice speciilor și a genelor de metaboliți secundari în genomul A. oryzae.
figură3

Barele gri reprezintă genomul A. oryzae. Deasupra cromozomului sunt cartografiate pe genom genele specifice speciilor (turcoaz) și ale metaboliților secundari (portocaliu); fiecare linie reprezintă o genă. Curba arată procentul de densitate calculat din numărul total de gene în limita a 30 kbp în pași de 5 kb. Sub genom, genele de bază sunt cartografiate prin punctele gri, iar densitatea numărului total de gene este reprezentată de graficul negru (cu o fereastră de 30 kbp).

Atât inspecția vizuală, cât și testul exact al lui Fisher au confirmat faptul că ambele specii specifice (p-valoare = 7.266e-07), cât și SMGC-urile (p-valoare < 2,2e-16) sunt îmbogățite spre regiunile subtelomerice (100 kbp de la capetele cromozomiale), în timp ce genele de bază se găsesc mai rar în regiunile subtelomerice. Faptul că genele specifice speciilor nu sunt distribuite la întâmplare argumentează împotriva faptului că acestea sunt simple erori de adnotare sau de modelare a genelor, indicând astfel că acestea sunt, într-adevăr, gene legitime. Distribuția genelor specifice speciilor sugerează că genele noi sunt mai frecvent încorporate cu succes în regiunile subtelomerice decât în alte locații. Dacă acesta este rezultatul unei selecții pentru regiunea subtelomerică sau al unei contra-selecții față de alte regiuni, sau ambele, datele nu relevă.

Analiza de sinteză relevă insule cu un conținut de gene foarte variabil

Regiunile sintetice și non-sintetice sunt un alt factor care trebuie luat în considerare atunci când se analizează localizarea genomului. S-a demonstrat că genomul lui A. oryzae are un model mozaic de regiuni sintenice și nesintenice în raport cu Aspergilli înrudiți la distanță1,2. Am examinat sintenia în întreaga secțiune Flavi și în A. nidulans și A. fumigatus, folosind A. oryzae RIB40 ca referință (tabelul 1). Această analiză susține constatarea noastră anterioară că A. oryzae este mai strâns înrudită cu A. aflatoxiformans decât cu A. flavus.

Tabel 1 Procentul genomului cu sintenie conservată în raport cu A. oryzae.

O prezentare generală a genelor sintenice comune este ilustrată în figura suplimentară 6. În general, există mai puține regiuni de sintenie spre capetele telomerice, așa cum s-a observat anterior1,2 într-o comparație între A. nidulans, A. fumigatus și A. oryzae. Am observat, de asemenea, că cromozomii 1 și 2 au un grad foarte ridicat de conservare a sinteniei, în timp ce cromozomii 6 și 8 au un grad mult mai scăzut de conservare a sinteniei.

Am găsit insule dense de gene nesintetice în regiunile non-sub-telomerice pe cromozomii 4, 6 și 8. Acestea ar putea fi cauzate de transferul orizontal de gene (HGT), shufflingul genelor sau formarea de novo a genelor. Am cercetat HGT-urile folosind BLASTp pentru a examina cele mai bune rezultate în baza de date neredundante NCBI. Se așteaptă ca HGT-urile recente să aibă o identitate de secvență ridicată cu un alt grup de specii din care ar fi fost transferate și să nu se regăsească în speciile strâns înrudite39. Niciuna dintre aceste insule nu a prezentat semne de HGT recente. În plus, doar 23 din cele 80 de gene din blocurile nesintetice erau specifice de A. oryzae. Prin urmare, pare probabil ca aceste insule nesintetice să fie cauzate de un amestec de rearanjamente semnificative, evenimente de duplicare și apariția genelor specifice de A. oryzae.

După toate acestea, faptul că observăm unii cromozomi foarte conservați și unele blocuri nesintetice foarte rearanjate ar putea indica o presiune evolutivă pentru stabilitate în unele regiuni, în timp ce alte regiuni sunt frecvent supuse la amestecuri și rearanjamente genetice, adică, puncte fierbinți de rearanjare.

Secțiunea Flavi este o sursă bogată de enzime active în carbohidrați

Enzimele active în carbohidrați (CAZymes) sunt esențiale pentru sursele de carbon pe care o specie le poate degrada și utiliza. În cadrul secțiunii Flavi, utilizarea CAZimelor/carbonului este descrisă în principal pentru A. oryzae1,2,40 și, într-o măsură mai mică, pentru A. flavus41,42,43,43,44,45 și A. flavus41,42,43,44,45 și A. flavus. sojae46,47, în timp ce cu alte specii din acest grup au fost efectuate doar studii incidentale48,49,50,50,51,52,53,54, descriind adesea producerea sau caracterizarea unei anumite activități sau proteine CAZyme, respectiv a unei anumite proteine.

Am utilizat baza de date CAZy pentru a prezice conținutul de CAZyme în genomurile secțiunii (Fig. 4). Un total de 13 759 de CAZime au fost prezise pentru cele 23 de specii Flavi (în medie 598/specie). Această cifră este destul de bogată în comparație cu referința inclusă Aspergilli (508/specie).

Fig. 4: Enzimele active pe bază de carbohidrați (CAZime) în secțiunea Flavi.
figura4

a Numărul total de CAZime din fiecare specie distribuit pe șase categorii de activitate enzimatică: activități auxiliare, molecule de legare a carbohidraților, esteraze ale carbohidraților, glicozide hidrolaze, glicoziltransferaze și lizaza polizaharidelor. b Boxplot reprezentând diversitatea conținutului și abundenței familiei CAZyme în cadrul cladei A. flavus (albastru deschis), A. tamarii (galben), A. nomius (albastru închis), A. alliaceus (turcoaz deschis), restul secțiunii Flavi (portocaliu), alte Aspergilli (turcoaz închis) și specii non-Aspergillus (gri). Pentru fiecare clasă de CAZime este afișat numărul total de CAZime (rândul de sus) și numărul de familii unice de CAZime (rândul de jos). În boxplot, linia mediană reprezintă mediana, limita superioară și inferioară a casetei reprezintă a treia și prima cuartilă, iar mustățile se extind până la de 1,5 ori interquartilul.

Este clar din această analiză că există o diferență distinctă între cladele secțiunii Flavi (Fig. 4b), arătând din nou o variație a conținutului de gene în cadrul secțiunii.

Conținutul variabil de CAZyme nu reflectă capacitatea de a degrada biomasa vegetală

Pentru a evalua capacitatea reală de utilizare a carbonului în întreaga secțiune Flavi, am realizat profilul de creștere a 31 de specii (29 de Aspergilli, inclusiv 23 de specii din secțiunea Flavi) pe 35 de substraturi legate de biomasa vegetală (Fig. 5, Date suplimentare 1) și am comparat acest lucru cu predicția conținutului de gene CAZyme legate de degradarea biomasei vegetale (Date suplimentare 2). Într-un studiu anterior, variația de creștere între Aspergilli înrudiți la distanță ar putea fi legată de diferențele în conținutul genei CAZyme55, dar acest lucru nu a fost valabil pentru speciile mai apropiate din Aspergillus secțiunea Nigri16.

Fig. 5: Enzimele active pe bază de carbohidrați din secțiunea Flavi sortate în funcție de filograma din Fig. 1.
figura5

a Hartă termică reprezentând profilurile de creștere a 23 de specii Flavi și a 8 specii suplimentare pe 35 de medii diferite. b Compararea seturilor de CAZime legate de degradarea biomasei vegetale în genomurile speciilor din secțiunea Aspergillus Flavi, precum și a altor câteva ciuperci. Culorile reflectă polizaharidele față de care sunt active enzimele.

Glucoza a dus la cea mai bună creștere dintre toate monozaharidele pentru toate speciile și, prin urmare, a fost utilizată ca referință internă pentru creștere (Fig. suplimentară 7). Creșterea pe alte surse de carbon a fost comparată cu creșterea pe d-glucoză și această diferență relativă a fost comparată între specii. Creșterea pe monosaharide a fost în mare măsură similară între speciile din secțiunea Flavi (Fig. 5, Fig. suplimentară 7 și Date suplimentare 1).

Seturile CAZyme legate de degradarea biomasei vegetale sunt în general foarte asemănătoare pentru secțiunea Flavi (Fig. 5), cu excepția A. coremiiformis, care are un set de gene puternic redus. Acest lucru se datorează în principal reducerii familiilor de glicozide hidrolaze, dar și a unui număr de familii legate de degradarea pectinei, xilanului și xiloglucanului. În mod surprinzător, această specie a prezentat o creștere relativă mai bună pe xilan decât majoritatea celorlalte specii, în timp ce creșterea pe alte polizaharide a fost în principal similară cu cea a secțiunii Flavi. Astfel, setul redus de gene nu a redus capacitatea sa de a degrada biomasa vegetală. Acest lucru ar putea fi similar cu cazul lui T. reesei, care are, de asemenea, un set de gene CAZyme redus, dar produce enzimele corespunzătoare la niveluri foarte ridicate56. Cu toate acestea, originea acestei abordări este probabil foarte diferită, deoarece conținutul său de CAZyme a fost modelat prin pierderea și apoi câștigarea masivă prin HGT a enzimelor care degradează peretele celular al plantelor57, în timp ce pentru A. coremiiformis nu există indicii în acest sens.

Diferențele hidrolitice sunt specifice cladelor în cadrul secțiunii Flavi (Date suplimentare 2). Clada A. togoensis are un set redus de gene xilanolitice și xiloglucanolitice, dar acest lucru nu se reflectă în creștere. În schimb, genele GH115 (alfa-glucuronidază) sunt extinse în cladele A. flavus, A. tamarii și A. nomius (enzimele sau activitatea xilanolitică au fost raportate de la mai multe specii din aceste clade49,50,51,53,58,59,60,61,62), GH62 (arabinoxilan arabinofuranohidrolază) a fost extinsă în clada A. leporis, iar cladele A. leporis și A. leporis și A. avenaceus au fost singurele clade cu CE15 (glucuronoil esteraze), care au fost, de asemenea, găsite la specii de Aspergillus din afara secțiunii Flavi.

Capacitatea de degradare a galactomananului a fost aproape complet conservată în secțiunea Flavi, dar, în mod interesant, creșterea pe guma de guar, care constă în principal din galactomanan, a fost variabilă între specii. În mod similar, capacitatea amilolitică redusă a cladelor A. togoensis și A. avenaceus nu a dus la o creștere redusă pe amidon sau maltoză.

Au fost observate variații în ceea ce privește numărul de gene pectinolitice. Cele mai pronunțate diferențe au fost absența genelor PL11 (rhamnogalacturonan liază) de la majoritatea speciilor din secțiunea Flavi și extinderea GH78 (alfa-rhamnosidază) în cladele A. flavus și A. tamarii. Cu toate acestea, aceste diferențe și cele mai mici din alte familii nu au dus la variații mari în creșterea pe pectină.

Diferențe mai evidente au fost prezente în timpul creșterii pe celobioză, lactoză și lignină. Cele mai multe specii au crescut slab pe cellobioză, în ciuda numărului similar de gene care codifică beta-glucozidaza în majoritatea speciilor (Date suplimentare 2). În mod similar, doar A. arachidicola și, într-o măsură mai mică, A. albertensis au crescut bine pe lactoză, în timp ce numărul de beta-galactozide la aceste specii este similar cu cel al celorlalte specii. Cea mai interesantă a fost constatarea că A. albertensis a crescut la fel de bine pe lignină ca și pe d-glucoză, sugerând potențiale aplicații în producția de biocombustibil.

În concluzie, potențialul CAZyme în secțiunea Flavi este în mare parte conservat (cu excepția A. coremiiformis), cu unele variații în numărul de copii, dar potențialul genomic și variațiile nu sunt neapărat reflectate în creștere. Prin urmare, este probabil că, așa cum s-a sugerat anterior55, diferențele observate sunt în mare parte la nivel de reglementare.

Familia CAZyme GH28 este umflată în clada A. flavus

Ne-am interesat în special de CAZimele GH28, deoarece acestea sunt importante pentru fermentarea alimentelor și calitatea produsului final fermentat63. A fost creat un arbore filogenetic al tuturor membrilor GH28 din secțiunea Flavi (Fig. 8 suplimentară). Arborele este format din 429 de proteine, în medie 18,7 per specie.

În cadrul arborelui există diferite grupări. Cinci grupuri au membri din toate cele 23 de specii, nouă grupuri lipsesc una până la patru specii (de obicei A. coremiiformis și A. caelatus), iar două grupuri sunt specifice cladelor A. flavus, A. tamarii și A. nomius. În cele din urmă, există opt grupuri care conțin 2-13 specii, care nu urmează filogenia – sugerând că acestea sunt surse de variație GH28.

În general, speciile din clada A. flavus au un număr ridicat de membri GH28. Se știe că A. sojae are un număr mare de GH28, care se observă și aici cu 24 de membri; cu toate acestea, A. sergii are un număr și mai mare, cu 25 de membri. Ar putea fi interesant de investigat dacă acest lucru ar putea fi exploatat fie prin utilizarea lui A. sergii ca o nouă specie în fermentarea alimentelor și/sau ca sursă de enzime noi.

Analiza metabolismului secundar

Genul Aspergillus este cunoscut ca producând un număr mare de SMs și numărul de SMGCs prezise este chiar mai mare. Majoritatea SMGC-urilor prezise sunt necaracterizate și, prin urmare, au potențialul de a produce o diversitate de compuși noi, bioactivi. Am examinat diversitatea și potențialul de producere a SM în secțiunea Flavi, atât din punct de vedere cantitativ, în ceea ce privește numărul de clustere, cât și calitativ, în ceea ce privește compușii pe care aceste clustere i-ar putea produce.

Metabolismul secundar în secțiunea Flavi este divers și prolific

Pentru a evalua cantitativ potențialul de producere de SM, SMGC-urile au fost prezise cu ajutorul unui instrument de predicție asemănător cu SMURF64 pentru toate speciile, cu excepția N. crassa și A. sojae, deoarece acestea au fost secvențiate prin alte metode și cu metode de apelare a genelor diferite (Fig. 6c). În cadrul celor 28 de specii de Aspergillus, există un total de 1972 SMGC prezise, iar pentru genomurile secțiunii Flavi, totalul este de 1606 SMGC (73/specii). Acest lucru reprezintă mai mult de 15 în plus pe specie în comparație cu genul Penicillium, foarte prolific65.

Fig. 6: Dereplicarea compușilor cunoscuți și a genelor de coloană vertebrală a metaboliților secundari prezise pe specie.
figura6

a O dendrogramă care reprezintă relația filogenetică dintre specii. Cutiile negre din noduri reprezintă familiile de clustere de gene de metaboliți secundari (SMGC) partajate între speciile care se ramifică de la acel nod. Dacă nu există nicio casetă neagră, înseamnă că nu există niciun cluster comun. Cutiile gri de la vârfuri arată numărul de familii SMGC unice găsite doar la o singură specie pentru secțiunea Flavi. b Matrice care indică prezența și absența familiilor SMGC cuplate la clusterele cunoscute din baza de date MIBiG66 pentru fiecare specie. Prezentarea generală a familiei de clustere pentru aflatoxină poate fi găsită în figura suplimentară 11. c Genele metaboliților secundari prezise pentru fiecare specie împărțite în funcție de enzima de bază. DMAT: dimetilaliltransferază (prenil transferaze), HYBRID: o genă de coloană vertebrală care conține domenii din coloanele vertebrale NRPS și PKS, NRPS: sintetază peptidică non-ribosomală, NRPS-like: sintetază peptidică non-ribosomală asemănătoare, care conține cel puțin două domenii specifice NRPS și un alt domeniu sau un domeniu NRPS A în combinație cu un domeniu de legare a NAD 4 sau cu o dehidrogenază cu lanț scurt, PKS: sintetază de polichetide, PKS-like: sintetază de polichetide asemănătoare, care conține cel puțin două domenii specifice PKS și un alt domeniu, TC: terpenciclază.

Am dorit să examinăm cât de unice sunt SMGC-urile și, astfel, am construit familii de SMGC-uri (Date suplimentare 3). Pentru întregul set de date, am putut să îl reducem în 477 de familii SMGC, iar pentru secțiunea Flavi 308 familii SMGC. Dintre acestea, 150 de clustere SMGC se regăsesc doar într-o singură specie din secțiunea Flavi (Fig. 6a), ceea ce arată un număr mare de clustere unice în fiecare specie (6,8 SMGC-uri unice/specie). În comparație cu Aspergillus secțiunea Nigri, numărul de clustere per specie din acest studiu este ușor mai mic, dar numărul de membri din fiecare familie SMGC este, de asemenea, mai mic, demonstrând o diversitate mai mare în metabolismul secundar în secțiunea Flavi în comparație cu secțiunea Nigri.

Dereplicarea metabolismului secundar prezice producătorii de toxine

Pentru a evalua calitativ potențialul de producere a SM, am folosit o conductă de „dereplicare genetică” în care clusterele prezise sunt asociate cu clusterele caracterizate verificate (din baza de date MIBiG66) într-o metodă de vinovăție prin asociere67. Pe această bază, 20 de familii de clustere au fost cuplate la o familie compusă (Fig. 6b). Unele familii de clustere au fost găsite în toate sau aproape toate genomurile Flavi, de exemplu, cele similare cu clusterele naftopirone68, nidulanină A69, azanigeronă70, 4,4′-piperazină-2,5-diildimetil-bis-fenol și aflavarină71/endocrocină72,73. Majoritatea familiilor urmează, în general, grupurile filogenetice, sugerând un model de distribuție bazat pe pierderi, dar unele, cum ar fi familiile SMGC similare clusterelor de asperfuranonă74, pseurotină A75 sau fumagilină76 , nu au urmat filogenia. Mai mult decât atât, au fost identificați potențiali producători de toxine cunoscute, cum ar fi aflatoxina și aspiroclorul (Fig. 6b).

Combinarea datelor și a analizei leagă un compus de un cluster

Extinzând de la clusterele SMGC cunoscute, am fost interesați să legăm compușii și clusterele pe baza modelului de prezență/absență a compușilor produși și a clusterelor prezise. Prin urmare, am creat o hartă termică a tuturor familiilor de clustere găsite în cel puțin cinci specii, am adăugat familiile de compuși prezise din dereplicarea MIBiG, în plus față de familiile de compuși curatorializate manual dintr-un studiu de literatură (Fig. suplimentară 9). În plus, am măsurat producția de SM a speciilor de Flavi (Date suplimentare 4).

De un interes deosebit au fost miyakamidele. Acestea sunt izolate inițial dintr-un izolat de A. flavus și s-a demonstrat că au proprietăți antibiotice77, dar nu se cunoaște grupul de gene biosintetice. Analiza noastră chimică a arătat producția în A. sojae, A. nomius, A. parasiticus, A. novoparasiticus și A. transmontanensis.

Am efectuat o retro-biosinteză pornind de la structura chimică și am prezis că grupul de gene biosintetice ar trebui să conțină o sintetază peptidică nonribosomală (NRPS) cu 2-3 domenii de adenilare (deoarece doi dintre cei trei aminoacizi sunt similari), o N-metiltransferază, o acetiltransferază și, potențial, o decarboxilază/dehidrogenază (Fig. suplimentară 10A). Căutând familii de clustere cu membri în toate speciile producătoare de miyakamidă care au coloane vertebrale NRPS cu 2-3 domenii de adenilare și un domeniu de metiltransferază, doar o singură familie de clustere a îndeplinit cerințele. Familia de clustere are o coloană vertebrală NRPS cu un domeniu de metiltransferază, trei domenii A la majoritatea speciilor și două la A. novoparasiticus. Predicția a numai două domenii A este cel mai probabil cauzată de o eroare de adnotare, deoarece similaritatea de secvență este conservată înainte de începutul genei (Fig. suplimentară 10B). Dimensiunea clusterului prezis este de 1-9 gene, diferența fiind probabil cauzată de erori de predicție SMGC (graficul de sinteză din Fig. suplimentară 10B). Graficul synteny arată că NRPS și două gene mici cu funcție necunoscută sunt conservate pe scară largă. Astfel, propunem că NRPS-ul identificat împreună cu cele două gene conservate cu funcție necunoscută sunt candidați probabili pentru biosinteza miyakamidei.

Clusterul de gene biosintetice ale aflatoxinei este foarte conservat

Poate cel mai bine cunoscut metabolit secundar din secțiunea Flavi este aflatoxina extrem de cancerigenă. Se știe că aflatoxinele sunt produse de multe specii din secțiunea Flavi (A. arachidicola, A. luteovirescens, A. flavus, A. minisclerotigenes, A. nomius, A. aflatoxiformans, A. pseudocaelatus, A. pseudonomius, A. pseudotamarii și unele izolate de A. oryzae)4,10.

Analiza dereplicării (Fig. 6b) a identificat o familie SMGC despre care se preconizează că este implicată în producerea de sterigmatocistină și aflatoxină, care reprezintă toate speciile din cladele A. flavus, A. nomius și A. tamarii, cu excepția A. tamarii. Un grafic de sintenie al familiei SMGC (figura suplimentară 11) arată că grupul este extrem de bine conservat, fără rearanjamente și cu o identitate de aliniere ridicată pentru genele aflatoxinelor. Doar A. caelatus are o formă trunchiată cu doar genele aflB, aflC și aflD, iar A. tamarii pare să aibă o pierdere completă a clusterului. Este interesant faptul că majoritatea clusterelor prezise nu au inclus genele aflP și aflQ, care sunt responsabile de ultima etapă a biosintezei aflatoxinelor. Am căutat aflP în genomuri (Fig. suplimentară 12) și am găsit-o în toate genomurile, dar cu situsuri de pornire diferite și cu o secvență suplimentară în mijlocul proteinelor. Datele RNA-seq susțin aceste modele (Fig. suplimentară 13) și sugerează erori în modelele de gene A. flavus. În mod similar, gena aflQ se găsește în toate celelalte specii, dar la 5-10 gene distanță de clusterele prezise. Astfel, analiza detaliată arată că toate aceste specii au genele necesare pentru biosinteza aflatoxinelor.