- Assessment of 19 newly sequenced section Flavi genomes
- Gatunki Aspergillus sekcji Flavi generalnie mają rozszerzone genomy
- Multigenowa filogeneza pokazuje złożone dziedzictwo A. oryzae
- Analiza wspólnych białek potwierdza wysoką różnorodność genetyczną
- Geny specyficzne dla gatunku często kodują regulację i P450s
- Geny gatunkowe są nadreprezentowane w regionach sub-telomerycznych
- Analiza syntenii ujawnia wyspy o wysoce zmiennej zawartości genów
- Sekcja Flavi jest bogatym źródłem enzymów węglowodanowo-czynnych
- Zmienna zawartość CAZyme nie odzwierciedla zdolności do degradacji biomasy roślinnej
- CAZyme rodzina GH28 jest zawyżona w kladzie A. flavus
- Analiza wtórnego metabolizmu
- Secondary metabolism in section Flavi is diverse and prolific
- Dereplikacja metabolizmu wtórnego przewiduje producentów toksyn
- Kombinacja danych i analiz łączy związek z klastrem
- Klaster genów biosyntezy aflatoksyn jest wysoce konserwowany
Assessment of 19 newly sequenced section Flavi genomes
W niniejszej pracy przedstawiamy sekwencje całogenomowe 19 gatunków z Aspergillus section Flavi (Rys. 1b). Dwa z nich (A. nomius i A. arachidicola18,19) zostały opublikowane przez inne grupy równolegle do tej pracy. Porównujemy te 19 gatunków do wcześniej zsekwencjonowanych gatunków z sekcji Flavi (A. oryzae, A. flavus, A. sojae i A. luteovirescens3,12,13,14), jak również do ośmiu gatunków referencyjnych: sześciu z pozostałej części rodzaju Aspergillus oraz Neurospora crassa i Penicillium digitatum jako grup zewnętrznych (Rys. 1a, b).
Jako pierwszy test podstawowy, jakość złożeń genomów została porównana w oparciu o rozmiar genomu, zawartość GC i liczbę przewidywanych białek (Rys. 1c). Okazało się, że jakość projektów genomów jest zadowalająca, a 13 z 18 genomów zostało złożonych w mniej niż 500 rusztowań (Rys. 1c, kolumna 5). Jednym z powodów do niepokoju był A. coremiiformis z 2728 rusztowaniami, co wzbudziło nasze obawy co do jakości zawartości genów. Jednakże genom pokrywa 99,78% ortologów Benchmarking Universal Single-Copy Orthologs (BUSCO20), a 96% klastrów znaczników sekwencji wyrażonych (EST) może być zmapowanych do genomu. Stwierdzamy zatem, że anotacja genomu jest wystarczająco wysokiej jakości do porównań zawartości genów pomimo dużej liczby rusztowań.
Gatunki Aspergillus sekcji Flavi generalnie mają rozszerzone genomy
Rozmiary genomów Aspergillus sekcji Flavi są generalnie duże w porównaniu z innymi reprezentatywnymi Aspergilli (średnio 37,96 Mbp vs. 31,7 Mbp (Fig. 1c)), jak wcześniej podano dla A. oryzae21. Jednym z głównych wyjątków jest A. coremiiformis, który ma zarówno mniej genów, jak i znacznie mniejszy genom, co czyni go wyjątkowym w sekcji.
Multigenowa filogeneza pokazuje złożone dziedzictwo A. oryzae
Następnie zbadaliśmy relacje ewolucyjne w sekcji Flavi w oparciu o filogenezę wyprowadzoną z 200 genów (Ryc. 1a). Wsparcie rozgałęzień w obrębie drzewa jest wysokie (100 na 100 bootstrapów w większości gałęzi). Drzewo potwierdza, że sekcja Flavi jest grupą monofiletyczną. Klady na Rys. 1a odpowiadają wcześniej opisanemu drzewu filogenetycznemu opartemu na genie beta-tubuliny10,11,22, a odległości między sekcjami odpowiadają wcześniejszym pracom23.
Jednym z potencjalnych błędów w drzewie jest to, że A. sojae znajduje się najbliżej A. flavus, ponieważ A. sojae jest postrzegany jako udomowiona wersja A. parasiticus. To rozgałęzienie rzeczywiście ma również najniższą wartość bootstrap w drzewie. Najbardziej prawdopodobnym wyjaśnieniem jest to, że ponieważ przewidywania genów A. sojae są oparte na anotacjach genomów A. flavus i A. oryzae24,25, powstaje tendencyjność w przewidywanych genach i ta tendencyjność jest prawdopodobnie odzwierciedlona w drzewie. Jako test, wygenerowaliśmy drzewa filogenetyczne przy użyciu alternatywnych metod nie zależnych od anotacji genów (CVTree26,27). Pokazują one wyraźnie, że A. sojae jest najbliższy A. parasiticus, zarówno przy użyciu sekwencji całego genomu, jak i sekwencji proteomu (Uzupełniające Ryc. 1 i Uzupełniające Ryc. 2). Dlatego też uważamy, że A. sojae powinien być umieszczony obok A. parasiticus w drzewie filogenetycznym, jak wskazuje strzałka na Rys. 1a.
Co więcej, A. oryzae, postrzegany jako udomowiona wersja A. flavus10,28,29,30, nie jest bezpośrednio obok niego w drzewie. Jednakże wcześniej sugerowano, że A. oryzae wywodzi się od przodka, który był przodkiem A. minisclerotigenes lub A. aflatoxiformans31. Filogeneza (Rys. 1a, powiększenie) wspiera tę sugestię, pokazując, że A. minisclerotigenes i A. aflatoxiformans są bliższymi krewnymi A. oryzae niż A. flavus.
Analiza wspólnych białek potwierdza wysoką różnorodność genetyczną
W celu zbadania podstawowych cech wspólnych dla wszystkich gatunków sekcji Flavi, kladów, jak również cech poszczególnych gatunków, przeprowadziliśmy analizę wspólnych genów homologicznych w obrębie i pomiędzy gatunkami16, i posortowaliśmy je w homologiczne rodziny białek (Ryc. 2). Pozwoliło to na identyfikację (1) Głównych rodzin genomowo-białkowych, których przynajmniej jeden członek występuje u wszystkich porównywanych gatunków. Oczekuje się, że obejmie to białka kluczowe. (2) Geny specyficzne dla sekcji i kladu – geny, które mają homologi u wszystkich członków kladu/sekcji, ale nie u żadnego innego gatunku. (3) Geny specyficzne dla gatunku – geny, które nie mają homologów u żadnego innego gatunku w porównaniu.
Rdzeń genomu wszystkich 31 gatunków w tym zestawie danych to 2082 rodziny białkowe. Dla 29 gatunków Aspergillus liczba ta wynosi 3853, a dla samej sekcji Flavi stanowi 4903 rodziny białkowe. Tak więc ponad połowa genomu gatunku sekcji Flavi różni się między gatunkami.
Przyglądając się rodzinom białkowym specyficznym dla kladu, znaleziono ich bardzo niewiele (27-54) (Rys. 2a), co jest niską wartością w porównaniu z sekcją Nigri badaną wcześniej16. Ponieważ sekcje Nigri i Flavi są mniej więcej tak samo bogate gatunkowo, może to wskazywać, że gatunki w sekcji Flavi są bardziej odrębne. Potwierdza to fakt, że liczba genów specyficznych dla gatunku jest bardzo wysoka (166-2181), gdzie widzimy, że 166 (A. sojae) jest sztucznie zaniżoną liczbą, ze względu na to, że wywołanie genów w tym genomie opiera się na genomach A. flavus i A. oryzae.
Geny specyficzne dla gatunku często kodują regulację i P450s
Chcieliśmy sprawdzić, czy geny specyficzne dla gatunku mogą być powiązane ze znanymi funkcjami Flavi, takimi jak fermentacja żywności oraz patogenność roślin i ludzi. W tym celu zbadaliśmy przewidywane funkcje genów specyficznych gatunkowo, wykorzystując anotacje InterPro, GO i KOG32,33,34,35. Część z funkcjonalną adnotacją była niska; 20, 12 i 9% odpowiednio dla InterPro, GO i KOG; w sumie 21% miało adnotację (Rys. 3-5). Jest to bardzo wysoki – ale nie niezwykły – odsetek funkcji niemożliwych do zidentyfikowania.
Skupimy się na InterPro, ponieważ obejmuje on więcej genów: najczęstsze funkcje InterPro obejmują czynniki transkrypcyjne, kinazy białkowe, transportery i P450s (Supplementary Fig. 3), które są również znacznie nadreprezentowane. Chociaż cechy te nie mogą być bezpośrednio powiązane z fermentacją żywności i patogennością, regulacja jest zaangażowana w adaptację, a P450s odgrywają rolę zarówno w degradacji substratów, jak i produkcji związków bioaktywnych, z których oba są istotne dla patogenności grzybów.
Geny gatunkowe są nadreprezentowane w regionach sub-telomerycznych
Wykazano, że sekwencje sub-telomeryczne są ekstensywnie rearanżowanymi regionami u A. nidulans, A. oryzae i A. fumigatus21. Obserwuje się to również u ssaków, nicieni i drożdży36. Poprzednie badania37,38 wykazały, że regiony sub-telomeryczne mają tendencję do tworzenia unikalnych, zdywersyfikowanych lub brakujących genów. W innym badaniu wykazano, że klastry genów metabolitów wtórnych (SMGCs) są wzbogacone w regionach sub-telomerycznych u A. nidulans i A. fumigatus21.
W związku z tym zbadaliśmy gęstość genów i lokalizację genów specyficznych dla gatunku, klastrów metabolitów wtórnych i genomu rdzeniowego, używając telomeru do telomeru genomu A. oryzae jako odniesienia w celu oceny potencjalnej nadreprezentacji tych genów w regionach sub-telomerycznych (ryc. 3).
Zarówno inspekcja wizualna, jak i dokładny test Fishera potwierdziły, że zarówno gatunkowo specyficzne (p-value = 7.266e-07) jak i SMGCs (p-value < 2.2e-16) są wzbogacone w kierunku regionów sub-telomerycznych (100 kbp od końców chromosomalnych), gdzie geny rdzeniowe rzadziej występują w regionach sub-telomerycznych. Fakt, że geny specyficzne gatunkowo nie są rozmieszczone losowo, przemawia przeciwko temu, że są to po prostu błędy w anotacji lub modelowaniu genów, wskazując tym samym, że są one rzeczywiście genami prawomocnymi. Rozmieszczenie genów specyficznych gatunkowo sugeruje, że nowe geny są częściej z powodzeniem włączane do regionów sub-telomerycznych niż do innych lokalizacji. Czy jest to wynik selekcji do regionu sub-telomerycznego, czy też kontrselekcji przeciwko innym regionom, lub obu, dane nie ujawniają.
Analiza syntenii ujawnia wyspy o wysoce zmiennej zawartości genów
Regiony synteniczne i nie-synteniczne są kolejnym czynnikiem do rozważenia przy analizie lokalizacji genomu. Wykazano, że genom A. oryzae ma mozaikowy wzór regionów syntenicznych i niesyntenicznych w stosunku do odległych spokrewnionych Aspergilli1,2. Zbadaliśmy syntenię w sekcji Flavi oraz w A. nidulans i A. fumigatus używając A. oryzae RIB40 jako odniesienia (Tabela 1). Analiza ta wspiera nasze wcześniejsze odkrycie, że A. oryzae jest bliżej spokrewniony z A. aflatoxiformans niż A. flavus.
Przegląd wspólnych genów syntenicznych jest zilustrowany na Suplementarnym Rys. 6. Ogólnie rzecz biorąc, istnieje mniej regionów syntenii w kierunku końców telomerów, jak wcześniej zaobserwowano1,2 w porównaniu A. nidulans, A. fumigatus i A. oryzae. Ponadto zaobserwowaliśmy, że chromosomy 1 i 2 mają bardzo wysoki stopień zachowania syntenii, podczas gdy chromosomy 6 i 8 mają znacznie niższy stopień zachowania syntenii.
Znajdujemy gęste wyspy niesyntenicznych genów w regionach nie-telomerycznych na chromosomach 4, 6 i 8. Mogą one być spowodowane horyzontalnym transferem genów (HGT), tasowaniem genów lub tworzeniem genów de novo. Zbadaliśmy HGT używając BLASTp do zbadania najlepszych trafień w nieredundantnej bazie danych NCBI. Oczekuje się, że niedawne HGT będą miały wysoką identyczność sekwencji z inną grupą gatunków, z której zostałyby przeniesione, i nie zostaną znalezione w blisko spokrewnionych gatunkach39. Żadna z tych wysp nie wykazała oznak niedawnego HGT. Co więcej, tylko 23 z 80 genów w blokach niesyntenicznych były specyficzne dla A. oryzae. Wydaje się więc prawdopodobne, że te niesynteniczne wyspy są spowodowane mieszanką znaczących rearanżacji, zdarzeń duplikacji i pojawienia się genów specyficznych dla A. oryzae.
Równocześnie, fakt, że obserwujemy niektóre bardzo konserwowane chromosomy i niektóre wysoce rearanżowane bloki niesynteniczne, może wskazywać na ewolucyjną presję na stabilność w niektórych regionach, podczas gdy inne regiony są często przedmiotem przemieszania genów i rearanżacji, tj, rearanżacyjne hot spots.
Sekcja Flavi jest bogatym źródłem enzymów węglowodanowo-czynnych
Enzymy węglowodanowo-czynne (CAZymes) są niezbędne do tego, jakie źródła węgla dany gatunek może degradować i wykorzystywać. W sekcji Flavi wykorzystanie CAZymes/carbon utilization jest opisane głównie dla A. oryzae1,2,40 i w mniejszym stopniu dla A. flavus41,42,43,44,45 i A. sojae46,47, podczas gdy tylko incydentalne badania zostały przeprowadzone z innymi gatunkami tej grupy48,49,50,51,52,53,54, często opisując produkcję lub charakterystykę pewnej aktywności CAZyme lub białka, odpowiednio.
Użyliśmy bazy danych CAZy, aby przewidzieć zawartość CAZyme w genomach sekcji (Rys. 4). Łącznie dla 23 gatunków Flavi przewidziano 13 759 CAZymów (średnio 598/ gatunek). Jest to dość bogata liczba w porównaniu z uwzględnionymi referencyjnymi Aspergilli (508/species).
Z analizy tej jasno wynika, że istnieje wyraźna różnica między kladami sekcji Flavi (Rys. 4b), pokazująca ponownie zróżnicowanie zawartości genów w sekcji.
Zmienna zawartość CAZyme nie odzwierciedla zdolności do degradacji biomasy roślinnej
Aby ocenić rzeczywistą zdolność do wykorzystania węgla przez sekcję Flavi, przeprowadziliśmy profilowanie wzrostu 31 gatunków (29 Aspergilli, w tym 23 gatunki z sekcji Flavi) na 35 substratach związanych z biomasą roślinną (Ryc. 5, Dane uzupełniające 1) i porównaliśmy to z przewidywaniem zawartości genów CAZyme związanych z degradacją biomasy roślinnej (Dane uzupełniające 2). W poprzednim badaniu, zróżnicowanie wzrostu pomiędzy odległymi spokrewnionymi Aspergilli mogło być powiązane z różnicami w zawartości genów CAZyme55, ale nie miało to miejsca w przypadku bliżej spokrewnionych gatunków z Aspergillus sekcji Nigri16.
Glukoza powodowała najlepszy wzrost spośród wszystkich monosacharydów dla wszystkich gatunków i dlatego została użyta jako wewnętrzne odniesienie dla wzrostu (Supplementary Fig. 7). Wzrost na innych źródłach węgla został porównany ze wzrostem na d-glukozie i ta względna różnica została porównana pomiędzy gatunkami. Wzrost na monosacharydach był w dużej mierze podobny pomiędzy gatunkami sekcji Flavi (Ryc. 5, Uzupełniające Ryc. 7, i Uzupełniające Dane 1).
Zestawy CAZyme związane z degradacją biomasy roślinnej są ogólnie bardzo podobne dla sekcji Flavi (Ryc. 5), z wyjątkiem A. coremiiformis, która ma silnie zredukowany zestaw genów. Wynika to głównie z redukcji rodzin hydrolaz glikozydowych, ale także kilku rodzin związanych z degradacją pektyn, ksylanów i ksyloglukanów. Co zaskakujące, gatunek ten wykazywał lepszy względny wzrost na ksylanie niż większość innych gatunków, podczas gdy wzrost na innych polisacharydach był głównie podobny do tego z sekcji Flavi. Tak więc, zredukowany zestaw genów nie zmniejszył jego zdolności do degradacji biomasy roślinnej. Może to być podobne do przypadku T. reesei, który również ma zredukowany zestaw genów CAZyme, ale produkuje odpowiednie enzymy na bardzo wysokim poziomie56. Jednak jego pochodzenie jest prawdopodobnie zupełnie inne, gdyż zawartość CAZyme została ukształtowana przez utratę, a następnie masywny zysk HGT enzymów degradujących roślinną ścianę komórkową57, podczas gdy w przypadku A. coremiiformis nie ma na to żadnych przesłanek.
Różnice hydrolityczne są specyficzne dla kladu w obrębie sekcji Flavi (Supplementary Data 2). Klad A. togoensis ma zredukowany zestaw genów ksylanolitycznych i ksyloglukanolitycznych, ale nie jest to odzwierciedlone we wzroście. Z kolei geny GH115 (alfa-glukuronidaza) są rozbudowane w kladach A. flavus, A. tamarii i A. nomius (enzymy ksylanolityczne lub ich aktywność odnotowano u kilku gatunków z tych kladów49,50,51,53,58,59,60,61,62), GH62 (arabinoksylan arabinofuranohydrolaza) był rozbudowany w kladzie A. leporis, a klady A. leporis i A. avenaceus były jedynymi kladami posiadającymi CE15 (esterazy glukuronoilowe), które występowały również u gatunków Aspergillus spoza sekcji Flavi.
Zdolność degradacji galaktomannanu była prawie w pełni zachowana w sekcji Flavi, ale co ciekawe wzrost na gumie guar, która składa się głównie z galaktomannanu, był zmienny pomiędzy gatunkami. Podobnie, obniżona zdolność amylolityczna kladów A. togoensis i A. avenaceus nie skutkowała obniżonym wzrostem na skrobi lub maltozie.
Zróżnicowanie zaobserwowano w liczbie genów pektynolitycznych. Najwyraźniejszymi różnicami był brak genów PL11 (liazy ramnogalakturonianowej) u większości gatunków sekcji Flavi oraz ekspansja GH78 (alfa-ramnosydazy) w kladach A. flavus i A. tamarii. Jednak te różnice oraz mniejsze w innych rodzinach nie spowodowały dużego zróżnicowania we wzroście na pektynie.
Bardziej oczywiste różnice występowały podczas wzrostu na celobiozie, laktozie i ligninie. Większość gatunków słabo rosła na celobiozie, pomimo podobnej liczby genów kodujących beta-glukozydazę u większości gatunków (Supplementary Data 2). Podobnie, tylko A. arachidicola i w mniejszym stopniu A. albertensis dobrze rosły na laktozie, podczas gdy liczba beta-galaktozydaz u tych gatunków jest podobna jak u pozostałych. Najbardziej interesujące było odkrycie, że A. albertensis rosła równie dobrze na ligninie jak na d-glukozie, co sugeruje potencjalne zastosowania w produkcji biopaliw.
Podsumowując, potencjał CAZyme w sekcji Flavi jest w dużej mierze zachowany (z wyjątkiem A. coremiiformis) z pewnymi różnicami w liczbie kopii, ale potencjał genomowy i różnice niekoniecznie są odzwierciedlone we wzroście. Jest zatem prawdopodobne, że jak sugerowano wcześniej55, obserwowane różnice są w dużej mierze na poziomie regulacyjnym.
CAZyme rodzina GH28 jest zawyżona w kladzie A. flavus
Byliśmy szczególnie zainteresowani GH28 CAZymes, ponieważ są one ważne dla fermentacji żywności i jakości końcowego produktu fermentowanego63. Utworzono drzewo filogenetyczne wszystkich członków GH28 z sekcji Flavi (Supplementary Fig. 8). Drzewo składa się z 429 białek, średnio 18,7 na gatunek.
W obrębie drzewa istnieją różne ugrupowania. Pięć grup ma członków ze wszystkich 23 gatunków, w dziewięciu grupach brakuje od jednego do czterech gatunków (zwykle A. coremiiformis i A. caelatus), a dwie grupy są specyficzne dla kladów A. flavus, A. tamarii i A. nomius. Wreszcie istnieje osiem grup zawierających 2-13 gatunków, które nie są zgodne z filogenezą, co sugeruje, że są to źródła GH28 variation.
Na ogół gatunki z kladu A. flavus mają wysoką liczbę członków GH28. A. sojae jest znany, aby mieć wysoką liczbę GH28, który jest również postrzegane tutaj z 24 członków; jednak A. sergii ma jeszcze wyższą liczbę z 25 członków. Interesujące mogłoby być zbadanie, czy można to wykorzystać poprzez użycie A. sergii jako nowego gatunku w fermentacji żywności i/lub jako źródła nowych enzymów.
Analiza wtórnego metabolizmu
Rodzaj Aspergillus jest znany z produkcji dużej liczby SMs, a liczba przewidywanych SMGCs jest jeszcze wyższa. Większość przewidywanych SMGCs nie jest scharakteryzowana i dlatego ma potencjał do produkcji różnorodnych, nowych, bioaktywnych związków. Zbadaliśmy różnorodność i potencjał do produkcji SM w sekcji Flavi, zarówno ilościowo pod względem liczby klastrów, jak i jakościowo pod względem związków, które te klastry mogą potencjalnie produkować.
Secondary metabolism in section Flavi is diverse and prolific
Aby ilościowo ocenić potencjał produkcji SM, SMGCs zostały przewidziane przy użyciu SMURF-like prediction tool64 dla wszystkich gatunków z wyjątkiem N. crassa i A. sojae, ponieważ te zostały zsekwencjonowane innymi metodami i z odmiennymi metodami wywoływania genów (Ryc. 6c). W obrębie 28 gatunków Aspergillus jest łącznie 1972 przewidywanych SMGCs, a dla genomów sekcji Flavi jest to łącznie 1606 SMGCs (73/gatunek). Jest to ponad 15 dodatkowych na gatunek w porównaniu z bardzo płodnym rodzajem Penicillium65.
Chcieliśmy zbadać jak bardzo unikalne są SMGCs, dlatego skonstruowaliśmy rodziny SMGCs (Supplementary Data 3). Dla całego zbioru danych mogliśmy podzielić go na 477 rodzin SMGC, a dla sekcji Flavi 308 rodzin SMGC. Spośród nich, 150 klastrów SMGC występuje tylko w jednym gatunku sekcji Flavi (Rys. 6a), wykazując dużą liczbę unikalnych klastrów w każdym gatunku (6,8 unikalnych SMGCs/gatunek). W porównaniu z Aspergillus sekcja Nigri, liczba klastrów na gatunek w tym badaniu jest nieco niższa, ale liczba członków w każdej rodzinie SMGC jest również niższa, co wskazuje na większą różnorodność metabolizmu wtórnego w sekcji Flavi w porównaniu z sekcją Nigri.
Dereplikacja metabolizmu wtórnego przewiduje producentów toksyn
Aby ocenić potencjał produkcji SM jakościowo, zastosowaliśmy potok „genetycznej dereplikacji”, gdzie przewidywane klastry są kojarzone ze zweryfikowanymi scharakteryzowanymi klastrami (z bazy danych MIBiG66) w metodzie guilt-by-association67. Na tej podstawie 20 rodzin klastrów zostało połączonych w rodzinę złożoną (ryc. 6b). Niektóre rodziny klastrów występowały we wszystkich lub prawie wszystkich genomach Flavi, np. te podobne do klastrów naftopironu68, nidulaniny A69, azanigeronu70, 4,4′-piperazyny-2,5-diylodimetylobis-fenolu i aflawaryny71/endokrocyny72,73. Większość rodzin generalnie podąża za grupami filogenetycznymi, sugerując schemat dystrybucji oparty na stratach, ale niektóre, jak rodziny SMGC podobne do klastrów asperfuranonu74, pseurotyny A75 czy fumagiliny76 nie podążają za filogenezą. Co więcej, zidentyfikowano potencjalnych producentów znanych toksyn, takich jak aflatoksyna i aspirochlorina (Rys. 6b).
Kombinacja danych i analiz łączy związek z klastrem
Odchodząc od znanych klastrów SMGC, byliśmy zainteresowani łączeniem związków i klastrów w oparciu o wzór obecności/nieobecności produkowanych związków i przewidywanych klastrów. Stworzyliśmy zatem mapę cieplną wszystkich rodzin klastrów znalezionych w co najmniej pięciu gatunkach, dodaliśmy przewidywane rodziny związków z dereplikacji MIBiG, a także ręcznie kuratorowane rodziny związków z przeglądu literatury (Supplementary Fig. 9). Dodatkowo zmierzyliśmy produkcję SM u gatunków Flavi (Supplementary Data 4).
Szczególnym zainteresowaniem cieszyły się miyakamidy. Zostały one pierwotnie wyizolowane z izolatu A. flavus i wykazano, że mają właściwości antybiotyczne77, ale klaster genów biosyntezy nie jest znany. Nasza analiza chemiczna wykazała produkcję w A. sojae, A. nomius, A. parasiticus, A. novoparasiticus i A. transmontanensis. Prawdopodobnie najbardziej znanym metabolitem wtórnym w sekcji Flavi jest wysoce rakotwórcza aflatoksyna. Wiadomo, że aflatoksyny są wytwarzane przez wiele gatunków sekcji Flavi (A. arachidicola, A. luteovirescens, A. flavus, A. minisclerotigenes, A. nomius, A. aflatoxiformans, A. pseudocaelatus, A. pseudonomius, A. pseudotamarii i niektóre izolaty A. oryzae)4,10. Analiza dereplikacji (Ryc. 6b) zidentyfikowała rodzinę SMGC przewidywaną jako zaangażowaną w produkcję sterigmatocystyn i aflatoksyn, do której należą wszystkie gatunki z kladów A. flavus, A. nomius i A. tamarii z wyjątkiem A. tamarii. Wykres syntenii rodziny SMGC (Supplementary Fig. 11) pokazuje, że klaster ten jest wyjątkowo dobrze zachowany, bez rearanżacji i z wysoką identycznością alignmentu dla genów aflatoksyn. Jedynie A. caelatus ma okrojoną formę z genami aflB, aflC i aflD, a A. tamarii wydaje się mieć całkowitą utratę klastra. Co ciekawe, większość przewidywanych klastrów nie zawiera genów aflP i aflQ, które są odpowiedzialne za ostatni etap biosyntezy aflatoksyn. Przeszukaliśmy genomy w poszukiwaniu aflP (Supplementary Fig. 12) i znaleźliśmy go we wszystkich genomach, ale z różnymi miejscami startu i dodatkową sekwencją w środku białka. Dane RNA-seq potwierdzają te modele (Supplementary Fig. 13) i sugerują błędy w modelach genów A. flavus. Podobnie, gen aflQ występuje u wszystkich pozostałych gatunków, ale 5-10 genów dalej od przewidywanych klastrów. Tak więc, szczegółowa analiza pokazuje, że wszystkie te gatunki posiadają geny wymagane do biosyntezy aflatoksyn.Klaster genów biosyntezy aflatoksyn jest wysoce konserwowany