Um estudo genômico comparativo de 23 espécies de Aspergillus da seção Flavi

Avaliação de 19 novas seqüências de genomas da seção Flavi

Neste estudo, apresentamos as seqüências de todo o genoma de 19 espécies da seção Flavi da Aspergillus (Fig. 1b). Duas destas (A. nomius e A. arachidicola18,19) também foram publicadas por outros grupos em paralelo a este trabalho. Comparamos estas 19 com espécies da seção Flavi previamente sequenciadas (A. oryzae, A. flavus, A. sojae, e A. luteovirescens3,12,13,14) assim como oito espécies de referência: seis do resto do gênero Aspergillus mais Neurospora crassa e Penicillium digitatum como outgroups (Fig. 1a, b).

Fig. 1: Phylogeny and genome statistics of section Flavi plus eight other Aspergillus, Penicillium, and Neurospora species.
>

figure1

a Phylogenetic tree constructed using RAxML, MUSCLE, and Gblocks based on 200 monocore genes (um único homólogo em cada uma das espécies). A estrela vermelha indica uma folha incerta muito provavelmente causada por um método de chamada de gene diferente98,99,100, e a seta mostra onde A. sojae deve ser colocado na árvore filogenética. O zoom mostra a ramificação em um clade ao redor de A. oryzae. b As cores ilustram os clades encontrados dentro da seção Flavi e X indicam espécies seqüenciadas neste estudo. Genomas sequenciados anteriormente como A. oryzae e A. fumigatus foram montados usando mapeamento óptico e mapas genéticos. c Sete gráficos de bolhas ilustrando números chave do genoma e parâmetro de qualidade de sequenciamento. Os tamanhos das bolhas foram escalados para cada painel e não são comparáveis entre painéis.

Como primeiro teste base, a qualidade das montagens do genoma foi comparada com base no tamanho do genoma, conteúdo de GC e número de proteínas previstas (Fig. 1c). Isto mostrou uma qualidade razoável do genoma com 13 dos 18 genomas montados em menos de 500 andaimes (Fig. 1c, coluna 5). Uma causa de alarme foi A. coremiiformis com 2728 andaimes, o que nos fez preocupar com a qualidade do conteúdo genético. No entanto, o genoma cobre 99,78% dos Ortologs Benchmarking Universal Single-Copy (BUSCO20), e 96% dos clusters de EST (express sequence tag) podem ser mapeados para o genoma. Assim concluímos que a anotação do genoma é de qualidade suficiente para comparações do conteúdo genético apesar do grande número de andaimes.

As espécies de Flavi de seção geralmente têm genomas expandidos

Os tamanhos do genoma de Aspergillus seção Flavi são geralmente grandes comparados com outros Aspergilli representativos (média de 37,96 Mbp vs. 31,7 Mbp (Fig. 1c)), como foi relatado anteriormente para A. oryzae21. Uma grande exceção é A. coremiiformis, que tem tanto menos genes quanto um genoma notavelmente menor, tornando-o único na seção.

Filogênese de Multigene mostra herança complexa de A. oryzae

Próximo examinamos as relações evolutivas na seção Flavi baseadas em uma filogenia derivada de 200 genes (Fig. 1a). O suporte da ramificação dentro da árvore é alto (100 em 100 bootstraps na maioria dos ramos). A árvore confirma que a secção Flávio é um grupo monofilético. Os clades na Fig. 1a correspondem a uma árvore filogenética previamente relatada baseada no gene da beta-tubulina10,11,22 e as distâncias entre seções correspondem a trabalhos anteriores23,

Um erro potencial na árvore é que A. sojae é encontrada mais próxima de A. flavus, uma vez que A. sojae é percebida como uma versão domesticada de A. parasiticus. Esta ramificação de fato também tem o menor valor de bootstrap na árvore. A explicação mais provável é que como as previsões dos genes A. sojae são baseadas nas anotações do genoma A. flavus e A. oryzae24,25, um viés é criado nos genes previstos e este viés é provavelmente refletido na árvore. Como teste, temos gerado árvores filogenéticas usando métodos alternativos não dependentes da anotação do gene (CVTree26,27). Estes mostram claramente que A. sojae está mais próxima de A. parasiticus, tanto no uso de sequências de genoma inteiro como de proteoma (Fig. 1 e Fig. 2 Suplementares). Nós achamos, portanto, que A. sojae deve ser colocado ao lado de A. parasiticus na árvore filogenética como a seta indicada na Fig. 1a.

Outras vezes, A. oryzae, percebido como uma versão domesticada de A. flavus10,28,29,30, não está diretamente ao lado dele na árvore. Entretanto, foi sugerido anteriormente que A. oryzae descende de um ancestral que foi o ancestral de A. minisclerotigenes ou A. aflatoxiformans31. A filogenia (Fig. 1a, zoom) suporta esta sugestão, mostrando que A. minisclerotigenes e A. aflatoxiformans são parentes mais próximos de A. oryzae do que A. flavus.

Análise de proteínas compartilhadas confirma alta diversidade genética

A fim de examinar características principais compartilhadas por todas as espécies de Flavi, clades, assim como características de espécies individuais, nós fizemos uma análise de genes homólogos compartilhados dentro e entre espécies16, e classificamos estes em famílias de proteínas homólogas (Fig. 2). Isto permitiu a identificação de (1) As famílias do núcleo genoma-proteína com pelo menos um membro em todas as espécies comparadas. Espera-se que isto abranja as proteínas essenciais. (2) Genes-genes específicos de secção e clade-específicos que têm homólogos em todos os membros de um clade/secção, mas não com qualquer outra espécie. (3) Genes-genes específicos de espécies sem homólogos em qualquer outra espécie na comparação.

Fig. 2: Genes-específicos de secção e clade-específicos e genes-únicos de espécie.
figurar2

a Um dendrograma representando a relação filogenética entre os 29 Aspergilli. As caixas pretas nos nós representam as famílias de proteínas homólogas partilhadas entre as espécies ramificadas a partir daquele nó. As caixas brancas nas pontas representam as famílias proteicas exclusivas daquela espécie individual. b Um barplot mostrando o número de proteínas totais (verdes), núcleo (turquesa), e proteínas específicas de cada espécie (laranja) para cada espécie. O sombreamento escuro ilustra o número de proteínas com pelo menos uma anotação funcional baseada em InterPro32.

O genoma central de todas as 31 espécies neste conjunto de dados é 2082 famílias de proteínas. Para as 29 espécies de Aspergillus este número é 3853, e só para a seção espécies de Flavi constitui 4903 famílias proteicas. Assim, mais da metade do genoma da seção Espécies de Flavi varia entre as espécies.

Examinando as famílias proteicas específicas do clade-specificamente, apenas muito poucas (27-54) são encontradas (Fig. 2a), o que é baixo comparado com a seção Nigri examinada anteriormente16. Como as seções Nigri e Flavi são mais ou menos igualmente ricas em espécies, isto poderia indicar que as espécies na seção Flavi são mais distintas. Isto é apoiado pelo fato de que o número de genes específicos de espécies é muito alto (166-2181), onde vemos 166 (A. sojae) como sendo um número artificialmente baixo, devido à chamada do gene neste genoma ser baseado nos genomas A. flavus e A. oryzae.

Genes específicos da espécie frequentemente codificam a regulação e P450s

Queríamos ver se os genes específicos da espécie poderiam ser ligados às funções conhecidas de Flavi, tais como fermentação de alimentos e patogenicidade vegetal e humana. Para isso, examinamos as funções previstas dos genes específicos das espécies usando as anotações InterPro, GO e KOG32,33,34,35. A porção com uma anotação funcional foi baixa; 20, 12 e 9% para InterPro, GO e KOG, respectivamente; no total, 21% tiveram uma anotação (Figuras Suplementares. 3-5). Esta é uma porcentagem muito alta – mas não incomum – de funções não identificáveis.

Focaremos no InterPro já que ele cobre mais genes: as funções InterPro mais comuns incluem fatores de transcrição, kinases de proteína, transportadores e P450s (Fig. 3 Suplementar), que também estão significativamente sobre-representados. Embora estas características não possam ser diretamente ligadas à fermentação e patogenicidade dos alimentos, a regulação está envolvida na adaptação e os P450s desempenham papéis tanto na degradação do substrato quanto na produção de compostos bioativos, ambos relevantes para a patogenicidade fúngica.

Os genes das espécies estão sobre-representados em regiões subteloméricas

Está demonstrado que as sequências subteloméricas são regiões amplamente rearranjadas em A. nidulans, A. oryzae, e A. fumigatus21. Isto também é visto em mamíferos, nematódeos e leveduras36. Estudos prévios37,38 mostraram que regiões subteloméricas têm um viés para genes únicos, divergentes ou ausentes. Outro estudo mostrou que grupos de genes de metabólitos secundários (SMGCs) são enriquecidos em regiões subteloméricas em A. nidulans e A. fumigatus21,

Examinamos, portanto, a densidade de genes e a localização de genes específicos de espécies, grupos de metabólitos secundários e genoma central, usando o telômero A. oryzae como referência para avaliar a potencial super-representação destes genes nas regiões subteloméricas (Fig. 3).

Fig. 3: Localização dos genes do metabolito secundário e único da espécie no genoma A. oryzae.
figure3

As barras cinzentas representam o genoma A. oryzae. Acima do cromossoma, os genes específicos da espécie (turquesa) e do metabolito secundário (laranja) são mapeados para o genoma, cada linha representa um gene. A curva mostra a percentagem da densidade calculada a partir do número total de genes dentro de 30 kbp em passos de 5 kb. Abaixo do genoma, os genes centrais são mapeados pelos pontos cinzas e a densidade do número total de genes é mostrada pelo gráfico preto (com uma janela de 30 kbp).

A inspecção visual e o teste exacto de Fisher confirmaram que ambas as espécies específicas (p-valor = 7.266e-07) e SMGCs (p< 2.2e-16) são enriquecidos em direção às regiões subteloméricas (100 kbp das extremidades cromossômicas), onde os genes centrais são encontrados com menos freqüência nas regiões subteloméricas. O fato de os genes específicos da espécie não estarem distribuídos aleatoriamente, argumenta contra o fato de serem simplesmente anotações ou erros de modelagem de genes, indicando, portanto, que são, de fato, genes legítimos. A distribuição dos genes específicos das espécies sugere que os novos genes são mais frequentemente incorporados com sucesso nas regiões subteloméricas do que em outros locais. Se este é o resultado de uma seleção para a região subtelomérica, ou uma contra-seleção contra outras regiões, ou ambas, os dados não revelam.

Análise da sintenia revela ilhas de conteúdo de genes altamente variáveis

Regiões sintênicas e não sintênicas são outro fator a ser considerado quando se analisa a localização do genoma. Foi demonstrado que o genoma A. oryzae tem um padrão de mosaico de regiões sintéticas e não-sintéticas em relação a Aspergilli1,2. Examinamos a síntese através da seção Flavi e em A. nidulans e A. fumigatus usando A. oryzae RIB40 como referência (Tabela 1). Esta análise suporta nosso achado anterior de que A. oryzae está intimamente relacionado a A. aflatoxiformans do que A. flavus.

Tabela 1 Porcentagem do genoma com síntese conservada em relação a A. oryzae.

Uma visão geral dos genes sintéticos compartilhados é ilustrada na Fig. 6. Em geral, há menos regiões de sínteny em direção aos fins teloméricos como visto anteriormente1,2 em uma comparação de A. nidulans, A. fumigatus, e A. oryzae. Observamos ainda que os cromossomos 1 e 2 têm um grau muito alto de sínteny conservado, enquanto os cromossomos 6 e 8 têm uma conservação muito menor de sínteny.

Nós encontramos ilhas densas de genes não-sintéricos em regiões não subteloméricas nos cromossomos 4, 6, e 8. Estes podem ser causados pela transferência horizontal de genes (HGT), embaralhamento de genes, ou formação de novos genes. Investigamos para HGTs usando BLASTp para examinar os melhores hits na base de dados não redundantes do NCBI. Espera-se que HGTs recentes tenham alta identidade sequencial com outro grupo de espécies de onde teria sido transferido, e não sejam encontrados nas espécies intimamente relacionadas39. Nenhuma destas ilhas mostrou sinais de HGTs recentes. Além disso, apenas 23 dos 80 genes nos blocos não-sintéticos eram A. oryzae-específicos. Assim, parece provável que estas ilhas não-sintéticas sejam causadas por uma mistura de rearranjos significativos, eventos de duplicação e o surgimento de genes A. oryzae-specific.

Tempos juntos, o fato de observarmos alguns cromossomos muito conservados e alguns blocos altamente rearranjados não-sintéticos poderia indicar uma pressão evolutiva para estabilidade em algumas regiões enquanto outras regiões estão frequentemente sujeitas a embaralhamento de genes e rearranjos, ou seja, rearranjos de pontos quentes.

Secção Flavi é uma rica fonte de enzimas carboidratos-ativas

As enzimas carboidratos-ativas (CAZymes) são essenciais para quais fontes de carbono uma espécie pode se degradar e utilizar. Dentro da seção Flavi as CAZymes/carbon utilization são descritas principalmente para A. oryzae1,2,40 e em menor extensão para A. flavus41,42,43,44,45 e A. sojae46,47, enquanto apenas estudos incidentais foram realizados com outras espécies deste grupo48,49,50,51,52,53,54, muitas vezes descrevendo a produção ou caracterização de uma certa atividade CAZyme ou proteína, respectivamente.

Utilizamos a base de dados CAZy para prever o conteúdo CAZyme nos genomas da seção (Fig. 4). Um total de 13.759 CAZymes foram previstos para as 23 espécies de Flavi (média de 598/espécie). Isto é bastante rico comparado com a referência incluída Aspergilli (508/espécie).

Fig. 4: Enzimas carboidratos-activas (CAZymes) na secção Flavi.
figurar4

a O número total de CAZymes em cada espécie distribuídas em seis categorias de atividade enzimática: atividades auxiliares, moléculas ligantes de carboidratos, esterases de carboidratos, hidrolases de glicosídeos, glicosiltransferases, e liras de polissacarídeos. b Boxplot representando a diversidade do conteúdo e abundância da família CAZyme entre o clade A. flavus (azul claro), A. tamarii (amarelo), A. nomius (azul escuro), A. alliaceus (turquesa clara), o resto da seção Flavi (laranja), outros Aspergilli (turquesa escura) e espécies não-Aspergillus (cinza). Para cada classe CAZyme são exibidos o número total de CAZymes (linha superior) e o número de famílias CAZyme únicas (linha inferior). No boxplot a linha média representa a mediana, o limite superior e inferior da caixa representa o terceiro e primeiro quartil, e os bigodes estendem-se até 1,5 vezes o interquartil.

Esta análise mostra claramente que existe uma diferença distinta entre os clades da seção Flavi (Fig. 4b), mostrando novamente uma variação no conteúdo gênico na seção.

O conteúdo variável de CAZyme não reflete a capacidade de degradar biomassa vegetal

Para avaliar a capacidade real de utilização de carbono na seção Flavi, realizamos o perfil de crescimento de 31 espécies (29 Aspergilli, incluindo 23 espécies da seção Flavi) em 35 substratos relacionados a biomassa vegetal (Fig. 5, Dados Suplementares 1) e comparamos isso com a previsão do conteúdo do gene CAZyme relacionado à degradação da biomassa vegetal (Dados Suplementares 2). Em um estudo anterior, a variação no crescimento entre Aspergilli distantemente relacionados poderia estar ligada a diferenças no conteúdo do gene CAZyme55, mas este não foi o caso para espécies relacionadas mais próximas da seção Nigri de Aspergillus16,

Fig. 5: Enzimas carboidratos-ativas na seção Flavi ordenadas de acordo com o filograma da Fig. 1.
figurar5

a Mapa térmico representando os perfis de crescimento de 23 espécies de Flavi e 8 espécies adicionais em 35 meios diferentes. b Comparação dos conjuntos CAZyme relacionados à degradação da biomassa vegetal nos genomas de espécies da seção Flavi de Aspergillus, e alguns outros fungos. As cores refletem os polissacarídeos para os quais as enzimas são ativas.

Glucose resultou no melhor crescimento de todos os monossacarídeos para todas as espécies e, portanto, foi usado como referência interna para o crescimento (Suplemento Fig. 7). O crescimento em outras fontes de carbono foi comparado com o crescimento em d-glucose e esta diferença relativa foi comparada entre as espécies. O crescimento em monossacarídeos foi muito semelhante entre as espécies da seção Flavi (Fig. 5, Suplemento Fig. 7, e Suplemento 1).

Os conjuntos CAZyme relacionados com a degradação da biomassa vegetal são em geral muito semelhantes para a seção Flavi (Fig. 5), com exceção de A. coremiiformis, que tem um conjunto de genes fortemente reduzido. Isto se deve principalmente à redução nas famílias de hidrolase glicosídica, mas também a um número de famílias relacionadas à degradação de pectina, xilan e xiloglucan. Surpreendentemente, esta espécie mostrou melhor crescimento relativo no xylan do que a maioria das outras espécies, enquanto o crescimento em outros polissacarídeos foi principalmente semelhante ao da secção Flavi. Assim, o conjunto genético reduzido não reduziu a sua capacidade de degradar a biomassa vegetal. Isto poderia ser semelhante ao caso de T. reesei, que também tem um conjunto de genes CAZyme reduzido, mas produz as enzimas correspondentes a níveis muito elevados56. Entretanto, a origem desta abordagem é provavelmente muito diferente já que seu conteúdo de CAZyme foi moldado pela perda e então ganho maciço de HGT das enzimas que degradam a parede celular das plantas57, enquanto nenhuma indicação para isto está presente para A. coremiiformis.

As diferenças hidrolíticas são específicas do clade-específico dentro da seção Flavi (Dados Suplementares 2). O clade A. togoensis tem um conjunto reduzido de genes xilanolíticos e xiloglucanolíticos, mas isto não é refletido no crescimento. Em contraste, os genes GH115 (alfa-glucuronidase) são expandidos nos clades A. flavus, A. tamarii e A. nomius (enzimas xilanolíticas ou atividade foram relatadas de várias espécies destes clades49,50,51,53,58,59,60,61,62), GH62 (arabinoxilan arabinofuranoidrolase) foi expandido no clade A. leporis, e clades A. leporis e A. avenaceus foram os únicos clades com CE15 (glucuronoyl esterases), que também foram encontrados nas espécies Aspergillus fora da seção Flavi.

A capacidade de degradação do galactomanano foi quase totalmente conservada na seção Flavi, mas curiosamente o crescimento na goma guar que consiste principalmente de galactomanano foi variável entre as espécies. Similarmente, a habilidade amilolítica reduzida dos clades A. togoensis e A. avenaceus não resultou em crescimento reduzido em amido ou maltose.

Variação foi observada no número de genes pectinolíticos. As diferenças mais pronunciadas foram a ausência dos genes PL11 (rhamnogalacturonan lyase) da maioria das espécies da seção Flavi, e a expansão do GH78 (alfa-hamnosidase) nos clades A. flavus e A. tamarii. Entretanto, estas diferenças e as menores em outras famílias não resultaram em grande variação no crescimento da pectina.

Mais óbvias diferenças estavam presentes durante o crescimento da celobiose, lactose e lignina. A maioria das espécies cresceu mal em celobiose apesar do número similar de genes beta-glucosidase-encoding na maioria das espécies (Dados Suplementares 2). Similarmente, apenas A. arachidicola, e em menor extensão A. albertensis cresceram bem na lactose, enquanto o número de beta-galactosidases nestas espécies é similar ao das outras espécies. Mais interessante foi a descoberta de que A. albertensis cresceu tão bem na lignina quanto na d-glucose, sugerindo aplicações potenciais na produção de biocombustíveis.

Em resumo, o potencial CAZyme na seção Flavi é largamente conservado (com exceção de A. coremiiformis) com algumas variações no número de cópias, mas o potencial genômico e variações não são necessariamente refletidas no crescimento. Portanto, é provável que, como sugerido anteriormente55, as diferenças observadas estejam em grande parte no nível regulatório.

CAZyme família GH28 é inflado no clade A. flavus

Estávamos particularmente interessados no GH28 CAZymes, pois eles são importantes para a fermentação de alimentos e para a qualidade do produto fermentado final63. Foi criada uma árvore filogenética de todos os membros do GH28 da secção Flavi (Fig. 8 Suplementar). A árvore consiste em 429 proteínas, em média 18,7 por espécie.

Na árvore existem diferentes agrupamentos. Cinco grupos têm membros de todas as 23 espécies, faltam nove grupos de uma a quatro espécies (geralmente A. coremiiformis e A. caelatus), e dois grupos são específicos para o A. flavus, A. tamarii, e A. nomius clades. Por último há oito grupos contendo 2-13 espécies, que não seguem a filogenia-sugestão destas como fontes de variação do GH28.

Em geral, as espécies do clade A. flavus têm um número elevado de membros GH28. A. sojae é conhecida por ter um alto número de GH28, que também é visto aqui com 24 membros; no entanto, A. sergii tem um número ainda maior com 25 membros. Poderia ser interessante investigar se isto poderia ser explorado usando A. sergii como uma nova espécie na fermentação de alimentos e/ou como uma fonte de novas enzimas.

Análise do metabolismo secundário

O gênero Aspergillus é conhecido por produzir um grande número de SMs e o número de SMGCs previstos é ainda maior. A maioria dos SMGCs previstos não são caracterizados e por isso têm o potencial de produzir uma diversidade de compostos bioactivos novos. Examinámos a diversidade e o potencial para a produção de SM na secção Flavi, tanto quantitativamente em termos de número de clusters, como qualitativamente em termos dos compostos que estes clusters poderiam potencialmente produzir.

Metabolismo secundário na seção Flávio é diverso e prolífico

Para avaliar quantitativamente o potencial para a produção de SM, os SMGCs foram previstos usando uma ferramenta de previsão do tipo SMURF64 para todas as espécies exceto N. crassa e A. sojae, uma vez que estes foram sequenciados por outros métodos e com métodos de chamada gênica diferentes (Fig. 6c). Dentro das 28 espécies de Aspergillus, existe um total de SMGCs preditos em 1972 e para a secção genómica de Flavi, o total é de 1606 SMGCs (73/espécie). Isto é mais de 15 extra por espécie em comparação com o muito prolífico gênero Penicillium65.

Fig. 6: Desreplicação de compostos conhecidos e previsão de genes da espinha dorsal do metabolito secundário por espécie.
figurar6

a Um dendrograma representando a relação filogenética entre as espécies. As caixas pretas nos nós representam as famílias de metabolitos secundários (SMGC) compartilhadas entre as espécies que se ramificam a partir daquele nó. Se não houver caixa preta, não há nenhum aglomerado compartilhado. As caixas cinzentas nas pontas mostram o número de famílias SMGC únicas encontradas em apenas uma espécie para a seção Flavi. b Matriz indicando a presença e ausência de famílias SMGC acopladas a clusters conhecidos da base de dados MIBiG66 para cada espécie. Visão geral da família de clusters para aflatoxina pode ser encontrada na Figura Complementar 11. c Genes previstos de metabolitos secundários para cada espécie divididos pela enzima de espinha dorsal. DMAT: dimetilaltransferase (prenil transferases), HYBRID: um gene de espinha dorsal contendo domínios de espinha dorsal NRPS e PKS, NRPS: peptídeo sintetase não-ribosomal, do tipo NRPS: nonribosomal peptide synthetase like, contendo pelo menos dois domínios específicos NRPS e outro domínio ou um domínio NRPS A em combinação com domínio NAD binding 4 ou desidrogenase de cadeia curta, PKS: poliketide synthase, PKS-like: poliketide synthase like, contendo pelo menos dois domínios específicos PKS e outro domínio, TC: terpene cyclase.

Queríamos examinar quão únicos são os SMGC, e assim construir famílias de SMGCs (Dados Suplementares 3). Para todo o conjunto de dados, nós podíamos desmembrá-lo em 477 famílias de SMGC, e para a seção Flavi 308 famílias de SMGC. Destes, 150 SMGC são encontrados apenas numa secção de espécies de Flávio (Fig. 6a), mostrando um grande número de clusters únicos em cada espécie (6.8 SMGCs/espécie únicos). Em comparação com Aspergillus secção Nigri, o número de clusters por espécie neste estudo é ligeiramente inferior, mas o número de membros em cada família SMGC também é inferior, demonstrando uma maior diversidade no metabolismo secundário na secção Flavi em comparação com a secção Nigri.

A desreplicação do metabolismo secundário prevê produtores de toxinas

Para avaliar qualitativamente o potencial de produção de SM, utilizamos um pipeline de “desreplicação genética” onde os clusters previstos estão associados a clusters caracterizados verificados (do banco de dados MIBiG66) em um método de guilt-by-association67. Com base nisso, 20 famílias de clusters foram acopladas a uma família composta (Fig. 6b). Algumas famílias de clusters foram encontradas em todos ou quase todos os genomas de Flavi, por exemplo, aqueles semelhantes à naftopirona68, nidulanina A69, azanigerona70, 4,4′-piperazina-2,5-diyldimetil-bis-fenol e aflavarin71/endocrocin72,73 clusters. A maioria das famílias geralmente segue os grupos filogenéticos, sugerindo um padrão de distribuição baseado em perdas, mas algumas, como as famílias SMGC semelhantes à asperfuranona74, pseurotin A75, ou clusters de fumagillin76 não seguiram a filogenia. Além disso, foram identificados potenciais produtores de toxinas conhecidas como a aflatoxina e a aspiroclorina (Fig. 6b).

Combinação de dados e análise liga um composto a um aglomerado

Extendendo dos aglomerados conhecidos do SMGC, estávamos interessados em ligar compostos e aglomerados com base no padrão de presença/ausência dos compostos produzidos e dos aglomerados previstos. Assim, criamos um mapa térmico de todas as famílias de clusters encontrados em pelo menos cinco espécies, acrescentamos as famílias de compostos previstos a partir da aplicação MIBiG, além das famílias de compostos curados manualmente a partir de um levantamento bibliográfico (Suplemento da Fig. 9). Além disso, medimos a produção SM das espécies de Flavi (Dados Suplementares 4).

De especial interesse foi miyakamides. Elas são originalmente isoladas de um isolado de A. flavus e mostraram ter propriedades antibióticas77 , mas o cluster gênico biossintético não é conhecido. Nossa análise química mostrou produção em A. sojae, A. nomius, A. parasiticus, A. novoparasiticus, e A. transmontanensis.

Realizamos retro-biossíntese a partir da estrutura química e previmos que o cluster do gene biosintético deveria conter uma peptídeo sintetase nãoribossômica (NRPS) com 2-3 domínios de adenilação (já que dois dos três aminoácidos são similares), uma N-metiltransferase, uma acetiltransferase, e potencialmente uma descarboxilase/deidrogenase (Suplemento Fig. 10A). Buscando famílias de clusters com membros em todas as espécies produtoras de miyakamida com backbones NRPS com 2-3 domínios de adenilação e um domínio de metiltransferase, apenas uma família de clusters preencheu os requisitos. A família de clusters tem um backbone NRPS com um domínio de metiltransferase, três domínios A na maioria das espécies e dois em A. novoparasiticus. A previsão de apenas dois domínios A é muito provavelmente causada por erro de anotação, uma vez que a semelhança da sequência é conservada antes do início do gene (Suplemento Fig. 10B). O tamanho do cluster previsto é de 1-9 genes, a diferença é provavelmente causada por erros de predição do SMGC (gráfico Synteny no Suplemento Fig. 10B). O gráfico synteny mostra que o NRPS e dois pequenos genes com função desconhecida estão amplamente conservados. Assim, propomos que o NRPS identificado juntamente com os dois genes conservados de função desconhecida são provavelmente candidatos à biossíntese de miyakamide.

O cluster de genes biossintéticos de aflatoxina é altamente conservado

Talvez o metabolito secundário mais conhecido na seção Flavi seja a aflatoxina altamente carcinogênica. As aflatoxinas são conhecidas por serem produzidas por muitas espécies de Flavi (A. arachidicola, A. luteovirescens, A. flavus, A. minisclerotigenes, A. nomius, A. aflatoxiformans, A. pseudocaelatus, A. pseudonomius, A. pseudotamarii, e alguns isolados A. oryzae)4,10.

A análise deereplicação (Fig. 6b) identificou uma família SMGC prevista para estar envolvida na produção de esterigmatocistina e aflatoxina, que é todas as espécies no A. flavus, A. nomius, e A. tamarii clades exceto A. tamarii. Um gráfico sintético da família SMGC (Figura Complementar 11) mostra que o aglomerado está extremamente bem conservado, sem rearranjos e com uma alta identidade de alinhamento para os genes da aflatoxina. Apenas A. caelatus tem uma forma truncada com apenas os genes aflB, aflC, e aflD e A. tamarii parece ter uma perda completa do aglomerado. Curiosamente, a maioria dos clusters previstos não incluiu os genes aflP e aflQ que são responsáveis pela última etapa da biossíntese de aflatoxina. Nós pesquisamos os genomas para aflP (Figura Suplementar 12), e o encontramos em todos os genomas, mas com diferentes locais de início e seqüência extra no meio das proteínas. Os dados do RNA-seq apoiam estes modelos (Suplemento Fig. 13) e sugerem erros nos modelos do gene A. flavus. Da mesma forma, o gene aflQ é encontrado em todas as outras espécies, mas a 5-10 genes de distância dos clusters previstos. Assim, uma análise detalhada mostra que todas estas espécies têm os genes necessários para a biossíntese de aflatoxina.