A comparative genomics study of 23 Aspergillus species from section Flavi

Assessment of 19 newly sequenced section Flavi genomes

Tässä tutkimuksessa esittelemme 19 lajin koko genomin sekvenssit Aspergillus section Flavi (Kuva 1b). Kaksi näistä (A. nomius ja A. arachidicola18,19) on julkaistu muiden ryhmien toimesta samanaikaisesti tämän työn kanssa. Vertaamme näitä 19 lajia aiemmin sekvensoituihin Flavi-sektion lajeihin (A. oryzae, A. flavus, A. sojae ja A. luteovirescens3,12,13,14) sekä kahdeksaan referenssilajiin: kuuteen muuhun Aspergillus-sukuun kuuluvaan lajiin sekä Neurospora crassaan ja Penicillium digitatumiin ulkopuolisina lajeina (kuvat 1a, b). 1: Flavi-sektion sekä kahdeksan muun Aspergillus-, Penicillium- ja Neurospora-lajin fylogenia ja genomitilastot.

kuvio1

a Fylogeneettinen puu, joka on muodostettu käyttäen RAxML-, MUSCLE- ja Gblocks-ohjelmia ja joka perustuu 200:aan monoydinmaiseen geeniin (yksi homologi kussakin lajissa). Punainen tähti osoittaa epävarmaa lehteä, joka johtuu todennäköisesti erilaisesta geenien kutsumismenetelmästä98,99,100, ja nuoli osoittaa, mihin A. sojae pitäisi sijoittaa fylogeneettisessä puussa. Zoomaus osoittaa haarautumisen kladissa A. oryzae:n ympärillä. b Värit havainnollistavat jaksossa Flavi esiintyviä kladeja, ja X tarkoittaa tässä tutkimuksessa sekvensoituja lajeja. Aiemmin sekvensoidut genomit, kuten A. oryzae ja A. fumigatus, koottiin optisen kartoituksen ja geneettisten karttojen avulla. c Seitsemän kuplakaaviota, jotka havainnollistavat keskeisiä genominumeroita ja sekvensoinnin laatuparametria. Kuplakoot on skaalattu kullekin paneelille, eivätkä ne ole vertailukelpoisia eri paneelien välillä.

Ensimmäisenä perustestinä genomikokoonpanojen laatua verrattiin genomin koon, GC-pitoisuuden ja ennustettujen proteiinien lukumäärän perusteella (kuva 1c). Tämä osoitti, että genomiluonnoksen laatu oli kohtuullinen, sillä 18 genomista 13 oli koottu alle 500 scaffoldiin (kuva 1c, sarake 5). Yksi hälyttävä tekijä oli A. coremiiformis, jossa oli 2728 scaffoldia, mikä sai meidät huolestumaan geenisisällön laadusta. Genomi kattaa kuitenkin 99,78 prosenttia BUSCO20:n (Benchmarking Universal Single-Copy Orthologs) vertailuarvoista, ja 96 prosenttia EST-klustereista (expressed sequence tag) voidaan kartoittaa genomiin. Näin ollen voimme päätellä, että genomin annotaatio on riittävän laadukas geenisisällön vertailua varten scaffoldien suuresta määrästä huolimatta.

Jakson Flavi lajeilla on yleensä laajemmat genomit

Aspergillus jakson Flavi genomien koot ovat yleensä suuria verrattuna muihin edustaviin Aspergillien lajeihin (keskimäärin 37,96 Mbp vs. 31,7 Mbp (Kuva 1c)), kuten aiemmin on raportoitu A. oryzae:lle21. Yksi merkittävä poikkeus on A. coremiiformis, jolla on sekä vähemmän geenejä että huomattavasti pienempi genomi, mikä tekee siitä ainutlaatuisen jaksossa.

Multigeenifylogenia osoittaa A. oryzaen monimutkaisen perimän

Seuraavaksi tarkastelimme evolutiivisia suhteita jaksossa Flavi 200 geenistä johdetun fylogenian perusteella (kuva 1a). Puun sisäisen haarautumisen tuki on korkea (100 bootstrapista 100 useimmissa haaroissa). Puu vahvistaa, että jakso Flavi on monofyleettinen ryhmä. Kuvan 1a kladit vastaavat aiemmin raportoitua fylogeneettistä puuta, joka perustuu beta-tubuliinigeeniin10,11,22 , ja jaksojen väliset etäisyydet vastaavat aiempaa työtä23.

Yksi mahdollinen virhe puussa on se, että A. sojae löytyy lähimpänä A. flavusta, koska A. sojae mielletään A. parasiticuksen kesytetyksi versioksi. Tällä haarautumisella on tosiaan myös puun alhaisin bootstrap-arvo. Todennäköisin selitys on, että koska A. sojae -geenien ennusteet perustuvat A. flavus – ja A. oryzae -genomien annotaatioihin24,25 , ennustettuihin geeneihin syntyy vinoutuma, ja tämä vinoutuma heijastuu todennäköisesti puuhun. Testiksi olemme luoneet fylogeneettisiä puita käyttämällä vaihtoehtoisia menetelmiä, jotka eivät ole riippuvaisia geenien annotaatiosta (CVTree26,27). Nämä osoittavat selvästi, että A. sojae on lähimpänä A. parasiticusta, kun käytetään sekä koko genomin että proteomin sekvenssejä (täydentävät kuvat 1 ja 2). Näin ollen katsomme, että A. sojae olisi sijoitettava A. parasiticuksen viereen fyogeneettisessä puussa kuvassa 1a osoitetulla nuolella.

Ei myöskään A. oryzae, joka mielletään A. flavuksen kesytetyksi versioksi10,28,29,30, sijaitse suoraan A. flavuksen vieressä puussa. Aiemmin on kuitenkin esitetty, että A. oryzae polveutuu esi-isästä, joka oli A. minisclerotigenesin tai A. aflatoxiformansin esi-isä31. Fylogenia (kuva 1a, zoomaus) tukee tätä ehdotusta ja osoittaa, että A. minisclerotigenes ja A. aflatoxiformans ovat läheisempiä sukulaisia A. oryzaelle kuin A. flavukselle.

Joustavien proteiinien analyysi vahvistaa suuren geneettisen monimuotoisuuden

Tarkistaaksemme kaikille Flavi-sektion lajeille yhteisiä ydinominaisuuksia, kladeja sekä yksittäisten lajien ominaisuuksia teimme analyysin lajin sisällä ja lajien välillä jaetuista homologisista geeneistä16 ja lajittelimme ne homologisiin proteiiniperheisiin (kuva 2). Näin voitiin tunnistaa (1) keskeiset genomi-proteiiniperheet, joilla on vähintään yksi jäsen kaikissa vertailluissa lajeissa. Tämän odotetaan kattavan olennaiset proteiinit. (2) Lajikohtaiset ja lohkospesifiset geenit – geenit, joilla on homologeja kaikilla lohkon/lajin jäsenillä, mutta ei millään muulla lajilla. (3) Lajispesifiset geenit-geenit, joilla ei ole homologeja missään muussa vertailussa olleessa lajissa.

Kuvio 2: Ydinspesifiset, lohkospesifiset sekä lohkospesifiset ja lajispesifiset geenit.
kuvio2

a Dendrogrammi, joka kuvaa 29 Aspergilli-lajin välisiä filogeneettisiä suhteita. Solmujen mustat laatikot edustavat kyseisestä solmusta haarautuvien lajien yhteisiä homologisia proteiiniperheitä. Kärkien valkoiset laatikot edustavat kyseiselle lajille ominaisia proteiiniperheitä. b Pylväsdiagrammi, jossa esitetään kunkin lajin kokonaisproteiinien (vihreä), ydinproteiinien (turkoosi) ja lajispesifisten (oranssi) proteiinien määrä. Tumma varjostus havainnollistaa niiden proteiinien lukumäärää, joilla on vähintään yksi InterPro32:een perustuva funktionaalinen annotaatio.

Tässä aineistossa kaikkien 31 lajin ydingenomi on 2082 proteiiniperhettä. Aspergillus-suvun 29 lajin osalta tämä luku on 3853, ja pelkästään Flavi-suvun lajin osalta se muodostaa 4903 proteiiniperhettä. Näin ollen yli puolet jakson Flavi lajien genomista vaihtelee lajeittain.

Tarkasteltaessa klaasikohtaisia proteiiniperheitä löytyy vain hyvin vähän (27-54) (kuva 2a), mikä on vähän verrattuna aiemmin tutkittuun jaksoon Nigri16. Koska jaksot Nigri ja Flavi ovat suunnilleen yhtä lajirikkaita, tämä saattaa viitata siihen, että jakson Flavi lajit ovat erillisempiä. Tätä tukee se, että lajispesifisten geenien määrä on hyvin suuri (166-2181), jossa 166 (A. sojae) on mielestämme keinotekoisen alhainen määrä, koska tämän genomin geenikutsut perustuvat A. flavus- ja A. oryzae-genomeihin.

Lajispesifiset geenit koodaavat usein säätelyä ja P450-geenejä

Halusimme nähdä, voisivatko lajispesifiset geenit liittyä tunnettuihin Flavi-toimintoihin, kuten elintarvikekäymiseen sekä kasvien ja ihmisten patogeenisyyteen. Tätä varten tarkastelimme lajispesifisten geenien ennustettuja toimintoja InterPro-, GO- ja KOG-annotaatioiden32,33,34,35 avulla. Toiminnallisen annotaation sisältävien geenien osuus oli pieni; InterPro-, GO- ja KOG-annotaatioita oli 20, 12 ja 9 %; yhteensä 21 %:lla oli annotaatio (täydentävät kuvat 3-5). Tämä on hyvin korkea – mutta ei epätavallinen – tunnistamattomien funktioiden osuus.

Keskitymme InterPro:hon, koska se kattaa enemmän geenejä: yleisimpiä InterPro:n funktioita ovat transkriptiotekijät, proteiinikinaasit, transporterit ja P450:t (Täydentävä kuva 3), jotka ovat myös merkittävästi yliedustettuina. Vaikka näitä ominaisuuksia ei voida suoraan yhdistää elintarvikkeiden käymiseen ja patogeenisyyteen, säätely liittyy sopeutumiseen, ja P450-geeneillä on rooleja sekä substraatin hajoamisessa että bioaktiivisten yhdisteiden tuotannossa, joilla molemmilla on merkitystä sienten patogeenisuuden kannalta.

Lajin geenit ovat yliedustettuina subtelomeerisilla alueilla

On osoitettu, että subtelomeeriset sekvenssit ovat laajasti uudelleenjärjestäytyneitä alueita A. nidulansissa, A. oryzaessa ja A. fumigatusissa21. Tämä on nähtävissä myös nisäkkäillä, sukkulamatoilla ja hiivoilla36. Aiemmat tutkimukset37,38 osoittivat, että sub-telomeerisilla alueilla on etusija ainutlaatuisille, erilaistuneille tai puuttuville geeneille. Toisessa tutkimuksessa on osoitettu, että sekundaarimetaboliittien geeniklusterit (SMGC) ovat rikastuneet subtelomeerisilla alueilla A. nidulansissa ja A. fumigatusissa21.

Tarkastelimme siksi lajispesifisten geenien, sekundaarimetaboliittien geeniklustereiden ja ydingenomin geenitiheyttä ja sijaintia käyttämällä telomeerista telomeeriin A. oryzae-genomia referenssinä arvioidaksemme näiden geenien mahdollista yliedustusta subtelomeerisilla alueilla (kuva 3).

Kuva 3: Lajispesifisten ja sekundaarimetaboliittien geenien sijainti A. oryzae-genomissa.
kuvio3

Harmaat pylväät kuvastavat A. oryzae-genomia. Kromosomin yläpuolella lajispesifiset (turkoosi) ja sekundaarimetaboliittien geenit (oranssi) on kartoitettu genomiin, jokainen viiva edustaa geeniä. Käyrä osoittaa tiheyden prosenttiosuuden, joka on laskettu 30 kbp:n sisällä olevien geenien kokonaismäärästä 5 kb:n askelin. Genomin alapuolella ydingeenit on kartoitettu harmailla pisteillä ja geenien kokonaismäärän tiheys on esitetty mustalla kuvaajalla (30 kbp:n ikkunalla).

Sekä silmämääräinen tarkastelu että Fisherin tarkka testi vahvistivat, että sekä lajispesifinen (p-arvo = 7.266e-07) kuin myös SMGC:t (p-arvo < 2.2e-16) rikastuvat kohti subtelomeerisia alueita (100 kbp kromosomin päistä), kun taas ydingeenejä löytyy harvemmin subtelomeerisilta alueilta. Se, että lajispesifiset geenit eivät ole jakautuneet satunnaisesti, puhuu sitä vastaan, että ne olisivat pelkkiä annotaatio- tai geenimallinnusvirheitä, mikä osoittaa, että ne ovat todellakin laillisia geenejä. Lajispesifisten geenien jakautuminen viittaa siihen, että uusia geenejä onnistutaan sisällyttämään sub-telomeerisille alueille useammin kuin muihin paikkoihin. Onko tämä seurausta valinnasta subtelomeeriselle alueelle vai vastavalinnasta muita alueita vastaan vai molemmista, aineisto ei paljasta.

Syntenia-analyysi paljastaa erittäin vaihtelevan geenipitoisuuden saarekkeita

Synteettiset ja ei-synteettiset alueet ovat toinen tekijä, joka on otettava huomioon genomin sijaintia analysoitaessa. On osoitettu, että A. oryzaen genomissa on mosaiikkimainen kuvio syntenisistä ja ei-syntenisistä alueista suhteessa kaukana sukua oleviin Aspergilliin1,2. Tarkastelimme synteniaa koko Flavi-sektiossa sekä A. nidulansissa ja A. fumigatusissa käyttäen A. oryzae RIB40:tä vertailukohtana (taulukko 1). Tämä analyysi tukee aiempaa havaintoamme, jonka mukaan A. oryzae on läheisempää sukua A. aflatoxiformansille kuin A. flavukselle.

Taulukko 1 Konservoitunutta synteniaa sisältävien geenien osuus genomista suhteessa A. oryzaeen.

Yleiskatsaus yhteisiin synteniageeneihin on havainnollistettu lisäkuvassa 6. Yleisesti ottaen syntenia-alueita on vähemmän telomeerien päissä, kuten aiemmin on havaittu1,2 A. nidulansin, A. fumigatusin ja A. oryzaen vertailussa. Lisäksi havaitsimme, että kromosomeilla 1 ja 2 on hyvin paljon säilynyttä synteniaa, kun taas kromosomeilla 6 ja 8 syntenian säilyminen on paljon vähäisempää.

Havaitsimme kromosomeilla 4, 6 ja 8 tiheitä ei-syntenisten geenien saarekkeita muilla kuin sub-telomeerisilla alueilla. Nämä voivat johtua horisontaalisesta geeninsiirrosta (HGT), geenien sekoittumisesta tai de novo -geenien muodostumisesta. Tutkimme HGT:tä BLASTp:n avulla NCBI:n ei-redundantissa tietokannassa olevien parhaiden osumien tutkimiseksi. Viimeaikaisilla HGT:illä odotetaan olevan suuri sekvenssi-identiteetti toisen lajiryhmän kanssa, josta se olisi siirretty, eikä niitä löydy lähisukulaislajista39. Yksikään näistä saarista ei osoittanut merkkejä viimeaikaisesta HGT:stä. Lisäksi ei-synteettisten lohkojen 80 geenistä vain 23 oli A. oryzae -spesifisiä. Näyttää siis todennäköiseltä, että nämä ei-synteettiset saarekkeet johtuvat merkittävien uudelleenjärjestelyjen, duplikaatiotapahtumien ja A. oryzae -spesifisten geenien syntymisen yhdistelmästä.

Kokonaisuutena tarkasteltuna se, että havaitsimme joitain hyvin konservoituneita kromosomeja ja joitain vahvasti uudelleenjärjestäytyneitä ei-synteettisiä lohkoja, voisi viitata siihen, että joillakin alueilla vallitsee evolutiivinen paine pysyvyyteen, kun taas joillakin muillakin alueilla tapahtuu usein geenien sekoittumista ja uudelleenjärjestelyjä, ts, rearrangement hot spots.

Jakso Flavi on runsas hiilihydraatti-aktiivisten entsyymien lähde

Hiilihydraatti-aktiiviset entsyymit (CAZymes, CAZymes) ovat välttämättömiä sen kannalta, mitä hiililähteitä laji pystyy hajottamaan ja hyödyntämään. Jaksossa Flavi CAZyymit/hiilen hyödyntäminen on kuvattu pääasiassa A. oryzae1,2,40 ja vähäisemmässä määrin A. flavus41,42,43,44,45 ja A.. sojae46,47, kun taas muista tämän ryhmän lajeista on tehty vain satunnaisia tutkimuksia48,49,50,51,52,53,54, joissa on usein kuvattu tietyn CAZyymiaktiivisuuden tai proteiinin tuotantoa tai karakterisointia.

Käytimme CAZy-tietokantaa ennustaaksemme jakson genomien CAZyymipitoisuutta (kuva 4). Kaikkiaan 23 Flavi-lajille ennustettiin 13 759 CAZyymiä (keskimäärin 598/laji). Tämä on varsin runsas verrattuna mukana olevaan referenssilajiin Aspergilli (508/laji).

Kuva 4: Hiilihydraattiaktiiviset entsyymit (CAZyymit) jaksossa Flavi.
kuvio4

a CAZyymien kokonaismäärä kussakin lajissa jakaantuneena kuuteen entsyymiaktiivisuusluokkaan: apuaktiviteetit, hiilihydraatteja sitovat molekyylit, hiilihydraattien esteraasit, glykosidihydrolaasit, glykosyylitransferaasit ja polysakkaridilyaasit. b Boxplot, joka esittää CAZyme-perheen sisällön ja runsauden monimuotoisuutta A. flavus -kladin (vaaleansininen), A. tamarii -kladin (keltainen), A. nomius -kladin (tummansininen), A. alliaceus -kladin (vaalean turkoosi), muun Flavi-ryhmän (oranssi), muiden Aspergilli-suvun (tumman turkoosi) ja muiden kuin Aspergillus-suvun lajien (harmaa) välillä. Kunkin CAZyymiluokan osalta esitetään CAZyymien kokonaismäärä (ylärivi) ja ainutlaatuisten CAZyymiperheiden määrä (alarivi). Boxplotissa keskiviiva edustaa mediaania, laatikon ylä- ja alaraja edustaa kolmatta ja ensimmäistä kvartiilia, ja vispilät ulottuvat 1,5-kertaiseen interkvartiiliin.

Tästä analyysistä käy selvästi ilmi, että jakson Flavi kladien välillä on selviä eroja (kuva 4b), mikä osoittaa jälleen kerran jakson geenipitoisuuksien vaihtelua.

Vaihteleva CAZyme-pitoisuus ei kuvasta kykyä hajottaa kasvibiomassaa

Arvioidaksemme todellista hiilen hyödyntämiskykyä koko Flavi-osastossa suoritimme 31 lajin (29 Aspergilliä, mukaan lukien 23 lajia Flavi-osastosta) kasvuprofiloinnin 35 kasvibiomassaan liittyvillä substraateilla (kuvio 5, lisätiedot 1) ja vertasimme tätä kasvibiomassan hajotukseen liittyvään CAZyme-geenin pitoisuusennusteeseen (lisätiedot 2). Aiemmassa tutkimuksessa etäisesti sukua olevien Aspergillien välinen kasvun vaihtelu voitiin yhdistää eroihin CAZyme-geenipitoisuudessa55 , mutta näin ei ollut Aspergillus Nigri-sektion läheisempien sukulaislajien kohdalla16.

Kuva 5: Hiilihydraattiaktiiviset entsyymit jaksossa Flavi lajiteltuna kuvassa esitetyn fylogrammin mukaisesti. 1.
kuvio5

a Lämpökartta, joka esittää 23 Flavi-lajin ja 8 muun lajin kasvuprofiileja 35:ssä eri elatusaineessa. b Kasvibiomassan hajoamiseen liittyvien CAZyymisarjojen vertailu Aspergillus-sektion Flavin ja eräiden muiden sienten lajien genomeissa. Värit kuvastavat polysakkarideja, joita kohtaan entsyymit ovat aktiivisia.

Lukoosi johti kaikkien lajien osalta parhaaseen kasvuun kaikista monosakkarideista, ja siksi sitä käytettiin kasvun sisäisenä referenssinä (lisäkuva 7). Kasvua muilla hiililähteillä verrattiin d-glukoosilla tapahtuvaan kasvuun, ja tätä suhteellista eroa verrattiin lajien välillä. Kasvu monosakkarideilla oli suurelta osin samanlaista jakson Flavi lajien välillä (Kuva 5, Täydentävä kuva 7 ja Täydentävät tiedot 1).

Kasvien biomassan hajoamiseen liittyvät CAZyme-geenisarjat ovat kaiken kaikkiaan hyvin samankaltaisia jakson Flavi lajeissa (Kuva 5), lukuun ottamatta A. coremiiformis -lajin lajia, jonka geenisarjat ovat voimakkaasti supistuneet. Tämä johtuu pääasiassa glykosidihydrolaasiperheiden vähenemisestä, mutta myös useiden pektiinin, ksylaanin ja ksyloglukaanin hajoamiseen liittyvien perheiden vähenemisestä. Yllättäen tämä laji osoitti parempaa suhteellista kasvua ksylaanilla kuin useimmat muut lajit, kun taas kasvu muilla polysakkarideilla oli pääasiassa samanlaista kuin jakson Flavi. Näin ollen supistunut geenijoukko ei ole heikentänyt sen kykyä hajottaa kasvibiomassaa. Tämä saattaa olla samanlaista kuin T. reesei -kasvintuhoojalla, jonka CAZyme-geenisarja on myös supistunut, mutta joka tuottaa vastaavia entsyymejä erittäin korkealla tasolla56. Tämän lähestymistavan alkuperä on kuitenkin todennäköisesti hyvin erilainen, sillä sen CAZyme-pitoisuus on muotoutunut kasvien soluseinää hajottavien entsyymien häviämisen ja sen jälkeen massiivisen HGT-lisäyksen seurauksena57 , kun taas A. coremiiformiksen kohdalla ei ole mitään viitteitä tällaisesta.

Hydrolyyttiset erot ovat klastikohtaisia Flavi-sektion sisällä (Supplementary Data 2). A. togoensis -kladissa on vähemmän ksylanolyyttisiä ja ksyloglukanoliittisia geenejä, mutta tämä ei näy kasvussa. Sitä vastoin GH115-geenit (alfa-glukuronidaasi) ovat laajentuneet kladeissa A. flavus, A. tamarii ja A. nomius (ksylanolyyttisiä entsyymejä tai aktiivisuutta on raportoitu useista näihin kladeihin kuuluvista lajeista49,50,51,53,58,59,60,61,62), GH62-geenit (arabinoksylaniarabinofuranohydrolaasi) ovat laajentuneet kladissa A. leporis ja kladeissa A. leporis ja A. nomius. avenaceus olivat ainoat kladit, joissa oli CE15 (glukuronoyyliesteraasit), joita löytyi myös Aspergillus-suvun ulkopuolisista Aspergillus-lajeista jakson Flavi ulkopuolella.

Galaktomannaanin hajotuskyky oli lähes täysin konservoitunut jaksossa Flavi, mutta mielenkiintoista on, että kasvu pääasiassa galaktomannaanista koostuvalla guarkumilla vaihteli lajien välillä. Vastaavasti kloonien A. togoensis ja A. avenaceus vähentynyt amylolyyttinen kyky ei johtanut vähentyneeseen kasvuun tärkkelyksellä tai maltoosilla.

Vaihtelua havaittiin pektinolyyttisten geenien määrässä. Selvimmät erot olivat PL11-geenin (rhamnogalakturonaanilyaasi) puuttuminen useimmista Flavi-osaston lajeista ja GH78-geenin (alfa-ramnosidaasi) laajeneminen A. flavus- ja A. tamarii -kladeissa. Nämä erot ja pienemmät erot muissa suvuissa eivät kuitenkaan johtaneet suuriin eroihin pektiinillä kasvamisessa.

Silmiinpistävämpiä eroja esiintyi sellobioosilla, laktoosilla ja ligniinillä kasvamisessa. Useimmat lajit kasvoivat huonosti sellobioosilla huolimatta siitä, että beetaglukosidaasia koodaavien geenien määrä oli useimmissa lajeissa samankaltainen (Supplementary Data 2). Vastaavasti vain A. arachidicola ja vähäisemmässä määrin A. albertensis kasvoivat hyvin laktoosilla, vaikka beta-galaktosidaasien määrä näissä lajeissa on samanlainen kuin muissa lajeissa. Kiinnostavinta oli havainto, että A. albertensis kasvoi yhtä hyvin ligniinillä kuin d-glukoosilla, mikä viittaa mahdollisiin käyttökohteisiin biopolttoaineiden tuotannossa.

Yhteenvetona voidaan todeta, että CAZyme-potentiaali jaksossa Flavi on suurelta osin säilynyt (lukuun ottamatta A. coremiiformis -lajia), ja siinä on jonkin verran vaihtelua kopiolukujen määrässä, mutta genomipotentiaali ja -vaihtelut eivät välttämättä näy kasvussa. Siksi on todennäköistä, että kuten aiemmin on ehdotettu55 , havaitut erot ovat suurelta osin säätelytasolla.

CAZyymiperhe GH28 on paisunut A. flavus -kladissa

Olimme erityisen kiinnostuneita GH28 CAZymeistä, koska ne ovat tärkeitä elintarvikkeiden fermentoinnille ja fermentoidun lopputuotteen laadulle63. Kaikista GH28:n jäsenistä jaksosta Flavi luotiin fylogeneettinen puu (lisäkuva 8). Puussa on 429 proteiinia, keskimäärin 18,7 proteiinia lajia kohti.

Puun sisällä on erilaisia ryhmittymiä. Viidessä ryhmässä on jäseniä kaikista 23 lajista, yhdeksästä ryhmästä puuttuu yhdestä neljään lajia (yleensä A. coremiiformis ja A. caelatus), ja kaksi ryhmää on spesifisiä A. flavus, A. tamarii ja A. nomius -kladeille. Viimeisenä on kahdeksan ryhmää, jotka sisältävät 2-13 lajia ja jotka eivät noudata fylogeniaa, mikä viittaa siihen, että nämä ryhmät ovat GH28-vaihtelun lähteitä.

Yleisesti A. flavus -kladin lajeissa on suuri määrä GH28-jäseniä. A. sojae -lajilla tiedetään olevan suuri määrä GH28-jäseniä, mikä näkyy myös tässä lajissa, jossa on 24 jäsentä; A. sergii -lajilla on kuitenkin vielä suurempi määrä, 25 jäsentä. Voisi olla mielenkiintoista tutkia, voitaisiinko tätä hyödyntää joko käyttämällä A. sergii -lajia uutena lajina elintarvikekäymisessä ja/tai uusien entsyymien lähteenä.

Sekundäärimetabolian analyysi

Aspergillus-suvun tiedetään tuottavan suuren määrän SM-yhdisteitä, ja ennustettujen SMGC:ien määrä on vielä suurempi. Suurin osa ennustetuista SMGC:istä on karakterisoimattomia, ja siksi niillä on potentiaalia tuottaa erilaisia uusia, bioaktiivisia yhdisteitä. Tutkimme SM:n tuotannon monimuotoisuutta ja potentiaalia Flavi-sektiossa sekä kvantitatiivisesti klusterien lukumäärän että kvalitatiivisesti niiden yhdisteiden osalta, joita nämä klusterit voisivat mahdollisesti tuottaa.

Sekundäärimetabolia jaksossa Flavi on monipuolista ja runsasta

Kvantitatiivisen SM-tuotantopotentiaalin arvioimiseksi SMGC:t ennustettiin SMURF:n kaltaisella ennustustyökalulla64 kaikille lajeille lukuun ottamatta N. crassaa ja A. sojae -lajeja, koska nämä lajit sekvensoitiin toisilla menetelmillä ja toisistaan poikkeavilla geenien kutsumismenetelmillä (kuva 6c). 28 Aspergillus-lajin sisällä on yhteensä 1972 ennustettua SMGC:tä, ja jakson Flavi genomeissa yhteensä 1606 SMGC:tä (73/laji). Tämä on yli 15 ylimääräistä lajia kohti verrattuna hyvin tuottoisaan Penicillium-sukuun65.

Kuva 6: Tunnettujen yhdisteiden ja ennustettujen sekundaarimetaboliittien selkärangan geenien dereplikaatio lajeittain.
kuvio6

a Dendrogrammi, joka kuvaa lajien välisiä fylogeneettisiä suhteita. Solmujen mustat laatikot edustavat kyseisestä solmusta haarautuvien lajien yhteisiä sekundaarimetaboliittien geeniryhmiä (SMGC). Jos mustaa laatikkoa ei ole, yhteisiä klustereita ei ole. Harmaat laatikot kärjissä osoittavat niiden ainutlaatuisten SMGC-perheiden lukumäärän, jotka löytyvät vain yhdestä lajista Flavi-jaksossa. b Matriisi, joka osoittaa SMGC-perheiden esiintymisen ja puuttumisen yhdistettynä MIBiG-tietokannasta66 tunnettuihin klustereihin kunkin lajin osalta. Yleiskatsaus aflatoksiinin klusteriperheeseen löytyy lisäkuvasta 11. c Ennustetut sekundaarimetaboliittien geenit kullekin lajille jaettuna selkärankaentsyymin mukaan. DMAT: dimetyylialyylitransferaasi (prenyylitransferaasit), HYBRID: selkärankageeni, joka sisältää domeeneja NRPS- ja PKS-selkärangoista, NRPS: ei-ribosomaalinen peptidisyntetaasi, NRPS-like: ei-ribosomaalinen peptidisyntetaasin kaltainen, joka sisältää vähintään kaksi NRPS-spesifistä domeenia ja toisen domeenin tai yhden NRPS A-domeenin yhdessä NAD:ia sitovan 4-domeenin tai lyhytketjuisen dehydrogenaasin kanssa, PKS: polyketidisyntaasi, PKS-tyyppinen: polyketidisyntaasin kaltainen, joka sisältää vähintään kaksi PKS-spesifistä domeenia ja jonkun muun domeenin, TC: terpeenisyklaasi.

Halusimme tutkia, kuinka ainutlaatuisia SMGC:t ovat, ja siksi muodostimme SMGC-perheitä (Supplementary Data 3). Koko aineiston osalta pystyimme kokoamaan sen 477 SMGC-perheeseen ja jakson Flavi osalta 308 SMGC-perheeseen. Näistä 150 SMGC-klusteria löytyy vain yhdestä Flavi-sektion lajista (kuva 6a), mikä osoittaa, että kussakin lajissa on suuri määrä ainutlaatuisia klustereita (6,8 ainutlaatuista SMGC:tä/laji). Verrattuna Aspergillus Nigri -jaksoon klusterien lukumäärä lajia kohti on tässä tutkimuksessa hieman pienempi, mutta myös jäsenten lukumäärä kussakin SMGC-perheessä on pienempi, mikä osoittaa, että sekundaarisen aineenvaihdunnan monimuotoisuus on suurempi jaksossa Flavi verrattuna jaksoon Nigri.

Sekundäärimetabolian dereplikointi ennustaa toksiinintuottajia

Käyttääkseen SM:n tuotantopotentiaalin kvalitatiivista arviointia käytimme ”geneettisen dereplikoinnin” putkea, jossa ennustetut klusterit assosioidaan todennettuihin karakterisoituihin klustereihin (MIBiG-tietokannasta66) syyllistymismenetelmällä67. Tämän perusteella 20 klusteriperhettä yhdistettiin yhdysperheeksi (kuva 6b). Joitakin klusteriperheitä löytyi kaikista tai lähes kaikista Flavin genomeista, esimerkiksi ne, jotka muistuttavat naftopyroni68-, nidulaniini A69-, atsanigeroni70-, 4,4′-piperatsiini-2,5-diyylidimetyyli-bisfenoli- ja aflavariini71/endokrosiini72,73 -klustereita. Useimmat perheet noudattavat yleensä fylogeneettisiä ryhmiä, mikä viittaa hävikkiin perustuvaan jakautumismalliin, mutta jotkin, kuten asperfuranoni74-, pseurotiini A75- tai fumagilliini76 -klusterin kaltaiset SMGC-perheet, eivät noudattaneet fylogeneettistä mallia. Lisäksi tunnistettiin tunnettujen toksiinien, kuten aflatoksiinin ja aspirokloorin, potentiaalisia tuottajia (kuva 6b).

Datan ja analyysin yhdistäminen yhdistää yhdisteen klusteriin

Tunnettujen SMGC-klustereiden lisäksi olimme kiinnostuneita yhdisteiden ja klustereiden yhdistämisestä tuotettujen yhdisteiden ja ennustettujen klustereiden läsnäolo-/poissaolokuvioiden perusteella. Siksi loimme lämpökartan kaikista klusteriperheistä, joita löytyi vähintään viidestä lajista, lisäsimme MIBiG-dereplikaatiosta ennustetut yhdisteryhmät sekä kirjallisuustutkimuksesta manuaalisesti kuratoidut yhdisteryhmät (täydentävä kuva 9). Tämän lisäksi mittasimme Flavi-lajien SM-tuotantoa (Supplementary Data 4).

Erityisen kiinnostuksen kohteena olivat miyakamidit. Ne on alun perin eristetty A. flavus -isolaatista ja niillä on osoitettu olevan antibioottisia ominaisuuksia77 , mutta biosynteettistä geeniryhmää ei tunneta. Kemiallinen analyysimme osoitti tuotantoa A. sojaessa, A. nomiuksessa, A. parasiticusissa, A. novoparasiticusissa ja A. transmontanensisissa.

Toteutimme retrobiosynteesin kemiallisesta rakenteesta ja ennustimme, että biosynteettisen geeniklusterin pitäisi sisältää ei-ribosomaalisen peptidisyntetaasin (NRPS), jolla on 2-3 adenylaatiodomeenia (koska kaksi kolmesta aminohaposta on samankaltaisia), N-metyylitransferaasin, asetyylitransferaasin ja mahdollisesti dekarboksylaasi/dehydrogenaasin (Täydentävä kuva 10A). Kun etsittiin klusteriperheitä, joiden jäsenillä on jäseniä kaikissa miyakamidia tuottavissa lajeissa, joilla on NRPS-runko, jossa on 2-3 adenylaatiodomeenia ja metyylitransferaasidomeeni, vain yksi klusteriperhe täytti vaatimukset. Klusteriperheessä on NRPS-selkäranka, jossa on metyylitransferaasidomeeni, kolme A-domeenia useimmissa lajeissa ja kaksi A. novoparasiticus -lajissa. Vain kahden A-domeenin ennustaminen johtuu todennäköisesti annotaatiovirheestä, koska sekvenssin samankaltaisuus on konservoitunut ennen geenin alkua (täydentävä kuva 10B). Ennustetun klusterin koko on 1-9 geeniä, ero johtuu todennäköisesti SMGC-ennustusvirheistä (Synteny plot täydentävässä kuvassa 10B). Synteniaplotti osoittaa, että NRPS ja kaksi pientä geeniä, joiden funktio on tuntematon, ovat laajalti konservoituneita. Näin ollen ehdotamme, että tunnistettu NRPS yhdessä kahden konservoituneen tuntemattoman funktion omaavan geenin kanssa ovat todennäköisiä ehdokkaita miyakamidin biosynteesiin.

Aflatoksiinin biosynteesigeeniklusteri on erittäin konservoitunut

Ehkä tunnetuin sekundaarinen aineenvaihduntatuote jaksossa Flavi on erittäin karsinogeeninen aflatoksiini. Aflatoksiineja tiedetään tuottavan monet Flavi-sektion lajit (A. arachidicola, A. luteovirescens, A. flavus, A. minisclerotigenes, A. nomius, A. aflatoxiformans, A. pseudocaelatus, A. pseudonomius, A. pseudotamarii ja jotkin A. oryzae -lajin isolaatit)4,10.

Dereplikaatioanalyysissä (kuva 6b) tunnistettiin SMGC-perhe, jonka ennustettiin osallistuvan sterigmatokystiinin ja aflatoksiinin tuotantoon, eli kaikki A. flavus-, A. nomius- ja A. tamarii -kladien lajit paitsi A. tamarii. SMGC-perheen synteniapiirros (täydentävä kuva 11) osoittaa, että klusteri on erittäin hyvin konservoitunut, eikä siinä ole uudelleenjärjestelyjä ja aflatoksiinigeenien kohdistusidentiteetti on korkea. Ainoastaan A. caelatusilla on typistetty muoto, jossa on vain aflB-, aflC- ja aflD-geenit, ja A. tamarii näyttää menettäneen klusterin kokonaan. Mielenkiintoista on, että useimmat ennustetut klusterit eivät sisältäneet aflP- ja aflQ-geenejä, jotka vastaavat aflatoksiinin biosynteesin viimeisestä vaiheesta. Etsimme genomeista aflP:tä (täydentävä kuva 12) ja löysimme sen kaikista genomeista, mutta eri aloituskohdilla ja ylimääräisellä sekvenssillä proteiinien keskellä. RNA-seq-tiedot tukevat näitä malleja (täydentävä kuva 13) ja viittaavat virheisiin A. flavus -geenimalleissa. Vastaavasti aflQ-geeni löytyy kaikista muista lajeista, mutta 5-10 geenin päässä ennustetuista klustereista. Yksityiskohtainen analyysi osoittaa siis, että kaikilla näillä lajeilla on aflatoksiinin biosynteesiin tarvittavat geenit.