Srovnávací genomická studie 23 druhů rodu Aspergillus ze sekce Flavi

Vyhodnocení 19 nově sekvenovaných genomů sekce Flavi

V této studii prezentujeme celogenomové sekvence 19 druhů rodu Aspergillus ze sekce Flavi (obr. 1b). Dva z nich (A. nomius a A. arachidicola18,19) byly souběžně s touto prací publikovány i jinými skupinami. Těchto 19 druhů porovnáváme s dříve sekvenovanými druhy sekce Flavi (A. oryzae, A. flavus, A. sojae a A. luteovirescens3,12,13,14) a také s osmi referenčními druhy: šesti ze zbytku rodu Aspergillus plus Neurospora crassa a Penicillium digitatum jako outgroups (obr. 1a, b).

Obr. 1. 1: Fylogeneze a statistika genomu sekce Flavi plus osmi dalších druhů Aspergillus, Penicillium a Neurospora.
obrázek1

a Fylogenetický strom sestrojený pomocí RAxML, MUSCLE a Gblocks na základě 200 jednojaderných genů (jeden homolog u každého z druhů). Červená hvězdička označuje nejistý list pravděpodobně způsobený jinou metodou volání genů98,99,100 a šipka ukazuje, kam by měl být A. sojae ve fylogenetickém stromu umístěn. Přiblížení ukazuje větvení v kladě kolem A. oryzae. b Barvy znázorňují klany nalezené v sekci Flavi a X označuje druhy sekvenované v této studii. Dříve sekvenované genomy jako A. oryzae a A. fumigatus byly sestaveny pomocí optického mapování a genetických map. c Sedm bublinových grafů ilustrujících klíčová čísla genomů a parametr kvality sekvenování. Velikosti bublin byly škálovány podle jednotlivých panelů a nejsou srovnatelné napříč panely.

Jako první základní test byla porovnána kvalita sestav genomů na základě velikosti genomu, obsahu GC a počtu předpovězených proteinů (obr. 1c). To ukázalo přiměřenou kvalitu návrhu genomu, přičemž 13 z 18 genomů bylo sestaveno do méně než 500 scaffoldů (obr. 1c, sloupec 5). Jedním z důvodů ke znepokojení byl genom A. coremiiformis s 2728 scaffoldy, což v nás vyvolalo obavy o kvalitu genového obsahu. Genom však pokrývá 99,78 % univerzálních jednokopírovacích ortologů (Benchmarking Universal Single-Copy Orthologs, BUSCO20) a 96 % klastrů exprimovaných sekvenčních značek (EST) lze mapovat na genom. Došli jsme tedy k závěru, že anotace genomu je dostatečně kvalitní pro porovnání genového obsahu i přes velký počet scaffoldů.

Druhy sekce Flavi mají obecně rozšířené genomy

Velikost genomu Aspergillus sekce Flavi je ve srovnání s ostatními zástupci Aspergilli obecně velká (průměrně 37,96 Mbp vs. 31,7 Mbp (obr. 1c)), jak bylo dříve uvedeno u A. oryzae21. Jednou z hlavních výjimek je A. coremiiformis, která má jak méně genů, tak výrazně menší genom, čímž je v sekci jedinečná.

Multigenová fylogeneze ukazuje složité dědictví A. oryzae

Dále jsme zkoumali evoluční vztahy v sekci Flavi na základě fylogeneze odvozené z 200 genů (obr. 1a). Podpora větvení v rámci stromu je vysoká (100 ze 100 bootstrapů ve většině větví). Strom potvrzuje, že sekce Flavi je monofyletická skupina. Kladiny na obr. 1a odpovídají dříve popsanému fylogenetickému stromu založenému na genu beta-tubulinu10,11,22 a vzdálenosti mezi sekcemi odpovídají předchozí práci23.

Jednou z možných chyb ve stromu je, že A. sojae se nachází nejblíže A. flavus, protože A. sojae je vnímána jako domestikovaná verze A. parasiticus. Toto větvení má skutečně také nejnižší hodnotu bootstrapu ve stromu. Nejpravděpodobnějším vysvětlením je, že vzhledem k tomu, že předpovědi genů A. sojae jsou založeny na anotacích genomů A. flavus a A. oryzae24,25 , dochází ke zkreslení předpovězených genů a toto zkreslení se pravděpodobně odráží ve stromu. Jako test jsme vytvořili fylogenetické stromy pomocí alternativních metod, které nejsou závislé na anotaci genů (CVTree26,27). Ty jasně ukazují, že A. sojae je nejblíže A. parasiticus, a to jak při použití sekvencí celého genomu, tak proteomu (doplňkový obr. 1 a doplňkový obr. 2). Domníváme se proto, že A. sojae by měl být ve fyogenetickém stromu umístěn vedle A. parasiticus, jak naznačuje šipka na obr. 1a.

Navíc A. oryzae, vnímaný jako domestikovaná verze A. flavus10,28,29,30, není ve stromu přímo vedle něj. Již dříve se však předpokládalo, že A. oryzae pochází z předka, který byl předkem A. minisclerotigenes nebo A. aflatoxiformans31. Fylogeneze (obr. 1a, zvětšení) tento předpoklad podporuje a ukazuje, že A. minisclerotigenes a A. aflatoxiformans jsou bližšími příbuznými A. oryzae než A. flavus.

Analýza sdílených proteinů potvrzuje vysokou genetickou diverzitu

Za účelem prozkoumání základních znaků sdílených všemi druhy sekce Flavi, kladů i znaků jednotlivých druhů jsme provedli analýzu sdílených homologických genů v rámci druhů a mezi druhy16 a roztřídili je do homologických proteinových rodin (obr. 2). To umožnilo identifikovat (1) Základní genomové proteinové rodiny s alespoň jedním členem u všech srovnávaných druhů. Očekává se, že tato skupina zahrnuje esenciální proteiny. (2) Sekčně specifické a kladově specifické geny – geny, které mají homology u všech členů daného kladu/sekce, ale ne u žádného jiného druhu. (3) Druhově specifické geny-geny, které nemají homology u žádného jiného srovnávaného druhu.

Obr. 2: Geny specifické pro jádro, sekci a geny specifické pro klad a druh.
obrázek2

a Dendrogram znázorňující fylogenetický vztah mezi 29 Aspergilli. Černé rámečky v uzlech představují homologické proteinové rodiny sdílené mezi druhy větvícími se z daného uzlu. Bílé boxy ve vrcholech představují proteinové rodiny jedinečné pro daný druh. b Sloupcový graf znázorňující počet celkových (zelených), základních (tyrkysových) a druhově specifických (oranžových) proteinů pro každý druh. Tmavé stínování znázorňuje počet proteinů s alespoň jednou funkční anotací na základě InterPro32.

Jádro genomu všech 31 druhů v tomto souboru dat tvoří 2082 proteinových rodin. Pro 29 druhů rodu Aspergillus je tento počet 3853 a jen pro sekci Flavi tvoří 4903 proteinových rodin. Více než polovina genomu druhů sekce Flavi se tedy napříč druhy liší.

Podíváme-li se na proteinové rodiny specifické pro jednotlivé klady, najdeme jich jen velmi málo (27-54) (obr. 2a), což je málo ve srovnání s dříve zkoumanou sekcí Nigri16. Vzhledem k tomu, že sekce Nigri a Flavi jsou zhruba stejně druhově bohaté, mohlo by to naznačovat, že druhy v sekci Flavi jsou odlišnější. To podporuje i fakt, že počet druhově specifických genů je velmi vysoký (166-2181), přičemž 166 (A. sojae) považujeme za uměle nízké číslo, což je způsobeno tím, že volání genů v tomto genomu vychází z genomů A. flavus a A. oryzae.

Druhově specifické geny často kódují regulace a P450

Chtěli jsme zjistit, zda druhově specifické geny mohou souviset se známými funkcemi Flavi, jako je fermentace potravin a patogenita rostlin a člověka. Za tímto účelem jsme prozkoumali předpokládané funkce druhově specifických genů pomocí anotací InterPro, GO a KOG32,33,34,35 . Podíl s funkční anotací byl nízký; 20, 12 a 9 % pro InterPro, GO, respektive KOG; celkem 21 % mělo anotaci (doplňkové obr. 3-5). To je velmi vysoké – ale nikoli neobvyklé – procento neidentifikovatelných funkcí.

Zaměříme se na InterPro, protože pokrývá více genů: mezi nejčastější funkce InterPro patří transkripční faktory, proteinkinázy, transportéry a P450 (doplňkový obr. 3), které jsou také výrazně nadreprezentovány. I když tyto funkce nelze přímo spojovat s fermentací potravin a patogenitou, regulace se podílí na adaptaci a P450s hrají roli jak v degradaci substrátů, tak v produkci bioaktivních sloučenin, což je obojí důležité pro patogenitu hub.

Druhové geny jsou nadměrně zastoupeny v subtelomerních oblastech

Ukázalo se, že subtelomerní sekvence jsou u A. nidulans, A. oryzae a A. fumigatus21 rozsáhle přeskupené oblasti. To je patrné také u savců, hlístic a kvasinek36. Předchozí studie37,38 ukázaly, že subtelomerické oblasti mají tendenci k unikátním, divergenovaným nebo chybějícím genům. Jiná studie ukázala, že klastry genů sekundárních metabolitů (SMGC) jsou obohaceny v subtelomerních oblastech u A. nidulans a A. fumigatus21.

Zkoumali jsme proto hustotu genů a umístění druhově specifických genů, klastrů sekundárních metabolitů a jádra genomu pomocí telomery k teloméře A. oryzae jako referenčního, abychom posoudili potenciální nadměrné zastoupení těchto genů v subtelomerních oblastech (obr. 3).

Obr. 3: Umístění druhově jedinečných genů a genů sekundárních metabolitů v genomu A. oryzae.
obr. 3

Šedé sloupce představují genom A. oryzae. Nad chromozomem jsou na genom mapovány druhově specifické (tyrkysové) a sekundární metabolitové geny (oranžové), každá čára představuje jeden gen. Křivka ukazuje procento hustoty vypočítané z celkového počtu genů v rozmezí 30 kbp v krocích po 5 kb. Pod genomem jsou jádrové geny mapovány šedými tečkami a hustota celkového počtu genů je znázorněna černým grafem (s oknem 30 kbp).

Vizuální kontrola i Fisherův přesný test potvrdily, že jak druhově specifické (p-hodnota = 7.266e-07) i SMGC (p-value < 2,2e-16) jsou obohaceny směrem k subtelomerickým oblastem (100 kbp od konců chromozomů), přičemž jádrové geny se v subtelomerických oblastech vyskytují méně často. Skutečnost, že druhově specifické geny nejsou rozmístěny náhodně, svědčí proti tomu, že by se jednalo o pouhé chyby v anotaci nebo genovém modelování, a tedy naznačuje, že se skutečně jedná o legitimní geny. Rozložení druhově specifických genů naznačuje, že nové geny jsou častěji úspěšně začleněny do subtelomerických oblastí než do jiných míst. Zda je to důsledek selekce pro subtelomerickou oblast, nebo protiselekce proti jiným oblastem, či obojího, data neodhalují.

Syntetická analýza odhaluje ostrovy s velmi variabilním obsahem genů

Syntetické a nesyntetické oblasti jsou dalším faktorem, který je třeba při analýze umístění genomu zvážit. Bylo prokázáno, že genom A. oryzae má oproti vzdáleně příbuzným Aspergilli1,2 mozaikovitý vzorec syntenických a nesyntenických oblastí. Zkoumali jsme syntézu napříč sekcí Flavi a do A. nidulans a A. fumigatus s použitím A. oryzae RIB40 jako reference (tab. 1). Tato analýza podporuje naše dřívější zjištění, že A. oryzae je blíže příbuzná A. aflatoxiformans než A. flavus.

Tabulka 1 Procento genomu s konzervovanou syntézou vzhledem k A. oryzae.

Přehled sdílených syntenických genů je znázorněn na doplňkovém obr. 6. Obecně je méně oblastí syntézy směrem k telomerickým koncům, jak bylo dříve pozorováno1,2 při srovnání A. nidulans, A. fumigatus a A. oryzae. Dále jsme pozorovali, že chromozomy 1 a 2 mají velmi vysoký stupeň zachování syntézy, zatímco chromozomy 6 a 8 mají zachování syntézy mnohem nižší.

Na chromozomech 4, 6 a 8 nacházíme husté ostrůvky nesyntetických genů v nesubtelomerních oblastech. Ty by mohly být způsobeny horizontálním přenosem genů (HGT), přehazováním genů nebo tvorbou genů de novo. HGT jsme zkoumali pomocí BLASTp, abychom prozkoumali nejlepší shody v neredundantní databázi NCBI. Očekává se, že recentní HGT budou mít vysokou sekvenční identitu s jinou skupinou druhů, odkud by byly přeneseny, a nebudou se nacházet u blízce příbuzných druhů39. Žádný z těchto ostrovů nevykazoval známky recentní HGT. Navíc pouze 23 z 80 genů v nesyntetických blocích bylo specifických pro A. oryzae. Zdá se tedy pravděpodobné, že tyto nesyntenické ostrůvky jsou způsobeny kombinací významných přeskupení, duplikačních událostí a vzniku genů specifických pro A. oryzae.

Souhrnně vzato by skutečnost, že pozorujeme některé velmi konzervativní chromozomy a některé vysoce přeskupené nesyntenické bloky, mohla naznačovat evoluční tlak na stabilitu v některých oblastech, zatímco jiné oblasti často podléhají přeskupení a přeskupení genů, tj, rearrangement hot spots.

Sekce Flavi je bohatým zdrojem sacharidově aktivních enzymů

Sacharidově aktivní enZymy (CAZymes) jsou zásadní pro to, jaké zdroje uhlíku může daný druh degradovat a využívat. V rámci sekce Flavi je využití CAZymů/uhlíků popsáno především u A. oryzae1,2,40 a v menší míře u A. flavus41,42,43,44,45 a A. sojae46,47, zatímco u ostatních druhů této skupiny byly provedeny pouze náhodné studie48,49,50,51,52,53,54, často popisující produkci nebo charakterizaci určité CAZymové aktivity, respektive proteinu.

Pro predikci obsahu CAZymů v genomech sekce jsme použili databázi CAZy (obr. 4). Pro 23 druhů rodu Flavi bylo předpovězeno celkem 13 759 CAZymů (průměrně 598/druh). To je poměrně bohaté ve srovnání se zařazenými referenčními Aspergilli (508/druh).

Obr. 4: Sacharidově aktivní enzymy (CAZymes) v sekci Flavi.
obrázek4

a Celkový počet CAZymů u jednotlivých druhů rozdělený na šest kategorií enzymové aktivity: pomocné aktivity, molekuly vázající sacharidy, sacharidové esterázy, glykosidové hydrolázy, glykosyltransferázy a polysacharidové lyázy. b Boxplot znázorňující diverzitu obsahu a četnosti CAZyme family mezi klanem A. flavus (světle modrá), A. tamarii (žlutá), A. nomius (tmavě modrá), A. alliaceus (světle tyrkysová), zbytkem sekce Flavi (oranžová), ostatními Aspergilli (tmavě tyrkysová) a ne-Aspergillus druhy (šedá). Pro každou třídu CAZymů je zobrazen celkový počet CAZymů (horní řádek) a počet unikátních rodin CAZymů (spodní řádek). V boxplotu představuje středová čára medián, horní a dolní hranice boxu představuje třetí a první kvartil a whiskery sahají až k 1,5násobku interkvartilu.

Z této analýzy je zřejmé, že mezi jednotlivými klady sekce Flavi je zřetelný rozdíl (obr. 4b), což opět ukazuje na rozdílný obsah genů v sekci.

Různý obsah CAZymu neodráží schopnost degradovat rostlinnou biomasu

Pro vyhodnocení skutečné schopnosti využívat uhlík napříč sekcí Flavi jsme provedli profilování růstu 31 druhů (29 Aspergilli, včetně 23 druhů ze sekce Flavi) na 35 substrátech souvisejících s rostlinnou biomasou (obr. 5, doplňková data 1) a porovnali jej s predikcí obsahu genů CAZymu souvisejících s degradací rostlinné biomasy (doplňková data 2). V předchozí studii mohly být rozdíly v růstu mezi vzdáleně příbuznými Aspergilli spojeny s rozdíly v obsahu genů CAZyme55 , ale u blíže příbuzných druhů ze sekce Aspergillus Nigri16 tomu tak nebylo.

Obr. 5: Sacharidově aktivní enzymy v sekci Flavi seřazené podle fylogramu na obr. 5. 1.
obrázek5

a Heatmapa znázorňující růstové profily 23 druhů ze sekce Flavi a 8 dalších druhů na 35 různých médiích. b Porovnání souborů CAZymů souvisejících s degradací rostlinné biomasy v genomech druhů ze sekce Aspergillus Flavi a některých dalších hub. Barvy odrážejí polysacharidy, vůči kterým jsou enzymy aktivní.

Glukóza vedla u všech druhů k nejlepšímu růstu ze všech monosacharidů, a proto byla použita jako vnitřní reference pro růst (doplňkový obr. 7). Růst na ostatních zdrojích uhlíku byl porovnán s růstem na d-glukóze a tento relativní rozdíl byl porovnán mezi druhy. Růst na monosacharidech byl mezi druhy sekce Flavi do značné míry podobný (obr. 5, doplňkový obr. 7 a doplňková data 1).

Soubory CAZymů související s rozkladem rostlinné biomasy jsou u sekce Flavi celkově velmi podobné (obr. 5), s výjimkou A. coremiiformis, který má silně redukovaný soubor genů. To je způsobeno především redukcí rodin glykosidových hydroláz, ale také řady rodin souvisejících s degradací pektinu, xylanu a xyloglukanu. Překvapivě tento druh vykazoval lepší relativní růst na xylanu než většina ostatních druhů, zatímco růst na ostatních polysacharidech byl většinou podobný jako u sekce Flavi. Redukovaná genová výbava tedy nesnížila jeho schopnost degradovat rostlinnou biomasu. To by mohlo být podobné jako v případě T. reesei, která má také redukovanou sadu genů CAZyme, ale produkuje příslušné enzymy ve velmi vysokých hladinách56. Původ tohoto přístupu je však pravděpodobně velmi odlišný, protože jeho obsah CAZyme byl utvářen ztrátou a následným masivním HGT ziskem enzymů degradujících rostlinnou buněčnou stěnu57 , zatímco u A. coremiiformis tomu nic nenasvědčuje.

Hydrolytické rozdíly jsou v rámci sekce Flavi specifické pro jednotlivé klady (doplňková data 2). Klade A. togoensis má redukovanou sadu xylanolytických a xyloglukanolytických genů, což se však neodráží v růstu. Naopak geny GH115 (alfa-glukuronidáza) jsou rozšířeny u kladů A. flavus, A. tamarii a A. nomius (xylanolytické enzymy nebo aktivita byly popsány u několika druhů z těchto kladů49,50,51,53,58,59,60,61,62), GH62 (arabinoxylan arabinofuranohydroláza) byla rozšířena u kladu A. leporis a klady A. leporis a A. avenaceus byly jediné klady s CE15 (glukuronoyl esterasy), které byly nalezeny i u druhů Aspergillus mimo sekci Flavi.

Schopnost degradovat galaktomannan byla v sekci Flavi téměř plně konzervována, ale zajímavé je, že růst na guarové gumě, která se skládá převážně z galaktomannanu, byl u jednotlivých druhů variabilní. Podobně snížená amylolytická schopnost kladů A. togoensis a A. avenaceus neměla za následek snížený růst na škrobu nebo maltóze.

Variabilita byla pozorována v počtu pektinolytických genů. Nejvýraznějšími rozdíly byla absence genů PL11 (rhamnogalakturonan lyáza) u většiny druhů sekce Flavi a rozšíření GH78 (alfa-ramnosidáza) u kladů A. flavus a A. tamarii. Tyto rozdíly a menší rozdíly u ostatních čeledí však nevedly k velkým rozdílům při růstu na pektinu.

Větší rozdíly byly přítomny při růstu na celobióze, laktóze a ligninu. Většina druhů rostla špatně na celobióze navzdory podobnému počtu genů kódujících beta-glukosidázu u většiny druhů (doplňkové údaje 2). Podobně pouze A. arachidicola a v menší míře A. albertensis dobře rostly na laktose, přičemž počet beta-galaktosidáz je u těchto druhů podobný jako u ostatních druhů. Nejzajímavější bylo zjištění, že A. albertensis rostla stejně dobře na ligninu jako na d-glukóze, což naznačuje potenciální využití při výrobě biopaliv.

Shrnem lze říci, že potenciál CAZyme v sekci Flavi je do značné míry konzervovaný (s výjimkou A. coremiiformis) s určitými rozdíly v počtu kopií, ale genomický potenciál a rozdíly se nemusí nutně projevit v růstu. Je proto pravděpodobné, že jak bylo naznačeno dříve55, pozorované rozdíly jsou převážně na regulační úrovni.

CAZymová rodina GH28 je u kladu A. flavus

Zajímaly nás zejména CAZymy GH28, protože jsou důležité pro fermentaci potravin a kvalitu konečného fermentovaného produktu63. Byl vytvořen fylogenetický strom všech členů GH28 ze sekce Flavi (doplňkový obr. 8). Strom se skládá ze 429 proteinů, v průměru 18,7 na druh.

V rámci stromu existují různá seskupení. Pět skupin má členy ze všech 23 druhů, v devíti skupinách chybí jeden až čtyři druhy (obvykle A. coremiiformis a A. caelatus) a dvě skupiny jsou specifické pro klady A. flavus, A. tamarii a A. nomius. Posledních osm skupin obsahuje 2-13 druhů, které nesledují fylogenezi – což naznačuje, že jsou zdrojem variability GH28.

Všeobecně mají druhy z kladu A. flavus vysoký počet členů GH28. Je známo, že A. sojae má vysoký počet členů GH28, což je vidět i zde s 24 členy; A. sergii má však ještě vyšší počet s 25 členy. Mohlo by být zajímavé prozkoumat, zda by se toho dalo využít buď využitím A. sergii jako nového druhu při fermentaci potravin a/nebo jako zdroje nových enzymů.

Analýza sekundárního metabolismu

O rodu Aspergillus je známo, že produkuje velký počet SM a počet předpokládaných SMGC je ještě vyšší. Většina předpovězených SMGC není charakterizována, a proto mají potenciál produkovat rozmanité nové, bioaktivní sloučeniny. Zkoumali jsme rozmanitost a potenciál produkce SM v sekci Flavi, a to jak kvantitativně z hlediska počtu klastrů, tak kvalitativně z hlediska sloučenin, které by tyto klastry mohly potenciálně produkovat.

Sekundární metabolismus v sekci Flavi je rozmanitý a plodný

Pro kvantitativní posouzení potenciálu pro produkci SM byly SMGC predikovány pomocí predikčního nástroje podobného SMURF64 pro všechny druhy kromě N. crassa a A. sojae, protože ty byly sekvenovány jinými metodami a s odlišnými metodami volání genů (obr. 6c). V rámci 28 druhů rodu Aspergillus je celkem 1972 předpovězených SMGC a pro genomy sekce Flavi je to celkem 1606 SMGC (73/druh). To je více než 15 navíc na druh ve srovnání s velmi plodným rodem Penicillium65.

Obr. 6: Dereplikace známých sloučenin a předpovězených páteřních genů sekundárních metabolitů na druh.
obrázek6

a Dendrogram znázorňující fylogenetické vztahy mezi druhy. Černá pole v uzlech představují rodiny genových klastrů sekundárních metabolitů (SMGC), které jsou společné pro druhy větvící se z daného uzlu. Pokud není žádný černý rámeček, jsou sdílené klastry nulové. Šedé boxy ve vrcholech ukazují počet unikátních rodin SMGC nalezených pouze u jednoho druhu pro sekci Flavi. b Matice udávající přítomnost a nepřítomnost rodin SMGC spojených se známými klastry z databáze MIBiG66 pro každý druh. Přehled rodin klastrů pro aflatoxin je uveden na doplňkovém obrázku 11. c Předpokládané geny sekundárních metabolitů pro každý druh rozdělené podle páteřního enzymu. DMAT: dimethylallyltransferasa (prenyltransferasy), HYBRID: páteřní gen obsahující domény z NRPS a PKS páteře, NRPS: neribozomální peptidová syntetasa, NRPS-like: PKS: polyketidová syntáza, PKS-like: polyketidová syntáza podobná, obsahující nejméně dvě domény specifické pro NRPS a další doménu nebo jednu doménu NRPS A v kombinaci s doménou vázající NAD 4 nebo dehydrogenázou krátkých řetězců, TC: terpenová cykláza.

Chtěli jsme prozkoumat, nakolik jsou SMGC jedinečné, a proto jsme zkonstruovali rodiny SMGC (doplňkové údaje 3). Pro celý soubor dat jsme jej mohli rozčlenit na 477 rodin SMGC a pro sekci Flavi na 308 rodin SMGC. Z nich se 150 shluků SMGC nachází pouze u jednoho druhu sekce Flavi (obr. 6a), což ukazuje na velký počet unikátních shluků u každého druhu (6,8 unikátních SMGC/druh). Ve srovnání se sekcí Aspergillus Nigri je počet klastrů na druh v této studii o něco nižší, ale počet členů v každé rodině SMGC je také nižší, což ukazuje na větší diverzitu sekundárního metabolismu v sekci Flavi ve srovnání se sekcí Nigri.

Dereplikace sekundárního metabolismu předpovídá producenty toxinů

Pro kvalitativní posouzení potenciálu pro produkci SM jsme použili pipeline „genetické dereplikace“, kdy jsou predikované klastry spojeny s ověřenými charakterizovanými klastry (z databáze MIBiG66) metodou guilt-by-association67. Na základě toho bylo 20 rodin klastrů spojeno se složenou rodinou (obr. 6b). Některé rodiny klastrů byly nalezeny ve všech nebo téměř všech genomech Flavi, např. rodiny podobné klastrům naftopyron68, nidulanin A69, azanigeron70, 4,4′-piperazin-2,5-diyldimethyl-bis-fenol a aflavarin71/endokrocin72,73 . Většina rodin obecně sleduje fylogenetické skupiny, což naznačuje distribuční vzorec založený na ztrátách, ale některé, jako například rodiny SMGC podobné shlukům asperfuranonu74, pseurotinu A75 nebo fumagilinu76 , fylogenezi nesledovaly. Navíc byli identifikováni potenciální producenti známých toxinů, jako je aflatoxin a aspirochlorin (obr. 6b).

Kombinace dat a analýzy spojuje sloučeninu se shlukem

Od známých shluků SMGC nás zajímalo propojení sloučenin a shluků na základě vzorce přítomnosti/nepřítomnosti produkovaných sloučenin a předpokládaných shluků. Vytvořili jsme proto tepelnou mapu všech rodin klastrů nalezených alespoň u pěti druhů, přidali předpovězené rodiny sloučenin z dereplikace MIBiG a navíc ručně kurátorsky sestavené rodiny sloučenin z literárního průzkumu (doplňkový obr. 9). Kromě toho jsme změřili produkci SM u druhů rodu Flavi (Doplňková data 4).

Zvlášť zajímavé byly miyakamidy. Ty byly původně izolovány z izolátu A. flavus a prokázaly antibiotické vlastnosti77 , ale biosyntetický genový klastr není znám. Naše chemická analýza prokázala produkci u A. sojae, A. nomius, A. parasiticus, A. novoparasiticus a A. transmontanensis.

Na základě chemické struktury jsme provedli retrobiosyntézu a předpověděli, že biosyntetický genový klastr by měl obsahovat neribosomální peptidovou syntetázu (NRPS) se 2-3 adenylačními doménami (protože dvě ze tří aminokyselin jsou podobné), N-methyltransferázu, acetyltransferázu a potenciálně dekarboxylázu/dehydrogenázu (doplňkový obr. 10A). Při hledání rodin klastrů s členy u všech druhů produkujících miyakamid, které mají páteř NRPS se 2-3 adenylačními doménami a doménou methyltransferázy, splňovala požadavky pouze jedna rodina klastrů. Tato klastrová rodina má NRPS páteř s methyltransferázovou doménou, tři A domény u většiny druhů a dvě u A. novoparasiticus. Předpověď pouze dvou domén A je pravděpodobně způsobena chybou anotace, protože sekvenční podobnost je zachována před začátkem genu (doplňkový obr. 10B). Velikost predikovaného shluku je 1-9 genů, rozdíl je pravděpodobně způsoben chybami v predikci SMGC (Synteny plot na doplňkovém obr. 10B). Syntézový graf ukazuje, že NRPS a dva malé geny s neznámou funkcí jsou široce konzervované. Navrhujeme tedy, že identifikovaný NRPS spolu se dvěma konzervovanými geny s neznámou funkcí jsou pravděpodobnými kandidáty na biosyntézu miyakamidu.

Klastr genů pro biosyntézu aflatoxinů je vysoce konzervovaný

Snad nejznámějším sekundárním metabolitem v sekci Flavi je vysoce karcinogenní aflatoxin. Aflatoxiny jsou známy u mnoha druhů sekce Flavi (A. arachidicola, A. luteovirescens, A. flavus, A. minisclerotigenes, A. nomius, A. aflatoxiformans, A. pseudocaelatus, A. pseudonomius, A. pseudotamarii a některé izoláty A. oryzae)4,10 .

Dereplikační analýza (obr. 6b) identifikovala rodinu SMGC, u níž se předpokládá, že se podílí na produkci sterigmatocystinu a aflatoxinu, což jsou všechny druhy z kladů A. flavus, A. nomius a A. tamarii s výjimkou A. tamarii. Syntézní graf rodiny SMGC (doplňkový obr. 11) ukazuje, že klastr je mimořádně dobře konzervovaný, bez přeskupení a s vysokou identitou zarovnání pro aflatoxinové geny. Pouze A. caelatus má zkrácenou formu pouze s geny aflB, aflC a aflD a u A. tamarii zřejmě došlo k úplné ztrátě klastru. Zajímavé je, že většina předpokládaných klastrů neobsahovala geny aflP a aflQ, které jsou zodpovědné za poslední krok biosyntézy aflatoxinů. Hledali jsme v genomech aflP (doplňkový obr. 12) a našli jsme ho ve všech genomech, ale s různými počátečními místy a extra sekvencí uprostřed proteinů. Data z RNA-seq tyto modely podporují (doplňkový obr. 13) a naznačují chyby v modelech genů A. flavus. Podobně se gen aflQ nachází ve všech ostatních druzích, ale 5-10 genů od předpovězených shluků. Podrobná analýza tedy ukazuje, že všechny tyto druhy mají geny potřebné pro biosyntézu aflatoxinů

.