Une étude génomique comparative de 23 espèces d’Aspergillus de la section Flavi

Évaluation de 19 génomes de la section Flavi nouvellement séquencés

Dans cette étude, nous présentons les séquences du génome entier de 19 espèces de la section Flavi d’Aspergillus (Fig. 1b). Deux d’entre elles (A. nomius et A. arachidicola18,19) ont également été publiées par d’autres groupes en parallèle à ce travail. Nous comparons ces 19 aux espèces de la section Flavi précédemment séquencées (A. oryzae, A. flavus, A. sojae, et A. luteovirescens3,12,13,14) ainsi qu’à huit espèces de référence : six du reste du genre Aspergillus plus Neurospora crassa et Penicillium digitatum comme outgroups (Fig. 1a, b).

Fig. 1 : Phylogénie et statistiques du génome de la section Flavi plus huit autres espèces d’Aspergillus, Penicillium, et Neurospora.
figure1

a Arbre phylogénétique construit à l’aide de RAxML, MUSCLE, et Gblocks basé sur 200 gènes monocore (un seul homologue dans chacune des espèces). L’étoile rouge indique une feuille incertaine très probablement causée par une méthode d’appel de gènes différente98,99,100, et la flèche montre où A. sojae devrait être placé dans l’arbre phylogénétique. Le zoom montre la ramification dans un clade autour de A. oryzae. b Les couleurs illustrent les clades trouvés dans la section Flavi et X indique les espèces séquencées dans cette étude. Les génomes séquencés précédemment, comme A. oryzae et A. fumigatus, ont été assemblés à l’aide de la cartographie optique et des cartes génétiques. c Sept diagrammes à bulles illustrant les numéros de génome clés et les paramètres de qualité du séquençage. La taille des bulles a été mise à l’échelle de chaque panneau et n’est pas comparable d’un panneau à l’autre.

Comme premier test de base, la qualité des assemblages de génomes a été comparée en fonction de la taille du génome, de la teneur en GC et du nombre de protéines prédites (figure 1c). Cette comparaison a montré une qualité raisonnable de l’ébauche du génome, 13 des 18 génomes étant assemblés dans moins de 500 échafaudages (Fig. 1c, colonne 5). Une cause d’alarme a été A. coremiiformis avec 2728 échafaudages, ce qui nous a fait nous inquiéter de la qualité du contenu des gènes. Cependant, le génome couvre 99,78% des Benchmarking Universal Single-Copy Orthologs (BUSCO20), et 96% des clusters d’étiquettes de séquences exprimées (EST) peuvent être cartographiés au génome. Nous concluons donc que l’annotation du génome est d’une qualité assez élevée pour les comparaisons du contenu des gènes malgré le grand nombre d’échafaudages.

Les espèces de la section Flavi ont généralement des génomes étendus

La taille du génome d’Aspergillus section Flavi est généralement grande par rapport à d’autres Aspergilli représentatifs (moyenne de 37,96 Mbp contre 31,7 Mbp (Fig. 1c)), comme cela a été précédemment rapporté pour A. oryzae21. Une exception majeure est A. coremiiformis, qui a à la fois moins de gènes et un génome notablement plus petit, ce qui le rend unique dans la section.

La phylogénie multigénique montre un héritage complexe de A. oryzae

Puis nous avons examiné les relations évolutives dans la section Flavi sur la base d’une phylogénie dérivée de 200 gènes (Fig. 1a). Le soutien de la ramification au sein de l’arbre est élevé (100 sur 100 bootstraps dans la plupart des branches). L’arbre confirme que la section Flavi est un groupe monophylétique. Les clades de la figure 1a correspondent à un arbre phylogénétique précédemment rapporté basé sur le gène de la bêta-tubuline10,11,22 et les distances entre les sections correspondent à des travaux antérieurs23.

Une erreur potentielle dans l’arbre est que A. sojae se trouve le plus proche de A. flavus, puisque A. sojae est perçu comme une version domestiquée de A. parasiticus. Cette ramification présente en effet également la valeur bootstrap la plus faible de l’arbre. L’explication la plus probable est que, puisque les prédictions des gènes d’A. sojae sont basées sur les annotations des génomes d’A. flavus et d’A. oryzae24,25, un biais est créé dans les gènes prédits et ce biais est probablement reflété dans l’arbre. À titre de test, nous avons généré des arbres phylogénétiques en utilisant des méthodes alternatives ne dépendant pas de l’annotation des gènes (CVTree26,27). Ceux-ci montrent clairement que A. sojae est le plus proche de A. parasiticus, à la fois en utilisant les séquences du génome entier et du protéome (Fig. 1 supplémentaire et Fig. 2 supplémentaire). Nous pensons donc que A. sojae devrait être placé à côté de A. parasiticus dans l’arbre phyogénétique comme la flèche indiquée dans la Fig. 1a.

En outre, A. oryzae, perçu comme une version domestiquée de A. flavus10,28,29,30, n’est pas directement à côté de lui dans l’arbre. Cependant, il a été suggéré précédemment qu’A. oryzae descend d’un ancêtre qui était l’ancêtre d’A. minisclerotigenes ou d’A. aflatoxiformans31. La phylogénie (Fig. 1a, zoom) soutient cette suggestion, montrant que A. minisclerotigenes et A. aflatoxiformans sont des parents plus proches de A. oryzae que de A. flavus.

L’analyse des protéines partagées confirme une grande diversité génétique

Afin d’examiner les caractéristiques fondamentales partagées par toutes les espèces de la section Flavi, les clades, ainsi que les caractéristiques des espèces individuelles, nous avons effectué une analyse des gènes homologues partagés au sein et entre les espèces16, et les avons triés en familles de protéines homologues (Fig. 2). Ceci a permis d’identifier (1) les familles génomiques-protéiques centrales dont au moins un membre est présent chez toutes les espèces comparées. On s’attend à ce que cela couvre les protéines essentielles. (2) Les gènes spécifiques de section et de clade – gènes qui ont des homologues dans tous les membres d’une clade/section, mais pas dans d’autres espèces. (3) Gènes spécifiques à l’espèce – gènes sans homologues dans aucune autre espèce de la comparaison.

Fig. 2 : Gènes spécifiques au noyau, spécifiques à la section, et spécifiques à la clade et à l’espèce.
figure2

a Un dendrogramme représentant la relation phylogénétique entre les 29 Aspergilli. Les boîtes noires dans les nœuds représentent les familles de protéines homologues partagées entre les espèces se ramifiant à partir de ce nœud. Les cases blanches aux extrémités représentent les familles de protéines uniques à cette espèce individuelle. b Un graphique à barres montrant le nombre de protéines totales (vert), principales (turquoise) et spécifiques à l’espèce (orange) pour chaque espèce. L’ombrage foncé illustre le nombre de protéines avec au moins une annotation fonctionnelle basée sur InterPro32.

Le génome de base des 31 espèces de cet ensemble de données est de 2082 familles de protéines. Pour les 29 espèces d’Aspergillus, ce nombre est de 3853, et pour la seule espèce de section Flavi constitue 4903 familles de protéines. Ainsi, plus de la moitié du génome de l’espèce section Flavi varie à travers les espèces.

En examinant les familles de protéines spécifiques au clade, seulement très peu (27-54) sont trouvés (Fig. 2a), ce qui est faible par rapport à la section Nigri examinée précédemment16. Comme les sections Nigri et Flavi sont à peu près également riches en espèces, cela pourrait indiquer que les espèces de la section Flavi sont plus distinctes. Ceci est soutenu par le fait que le nombre de gènes spécifiques à l’espèce sont très élevés (166-2181), où nous voyons 166 (A. sojae) comme un nombre artificiellement bas, en raison de l’appel de gènes dans ce génome étant basé sur les génomes de A. flavus et A. oryzae.

Les gènes spécifiques à l’espèce codent souvent pour la régulation et les P450

Nous avons voulu voir si les gènes spécifiques à l’espèce pouvaient être liés à des fonctions connues de Flavi telles que la fermentation alimentaire et la pathogénicité végétale et humaine. Pour ce faire, nous avons examiné les fonctions prédites des gènes spécifiques aux espèces en utilisant les annotations InterPro, GO et KOG32,33,34,35. La portion avec une annotation fonctionnelle était faible ; 20, 12, et 9% pour InterPro, GO, et KOG, respectivement ; au total 21% avaient une annotation (Figures supplémentaires 3-5). Il s’agit d’un pourcentage très élevé – mais pas inhabituel – de fonctions non identifiables.

Nous nous concentrerons sur InterPro car il couvre plus de gènes : les fonctions InterPro les plus courantes comprennent les facteurs de transcription, les protéines kinases, les transporteurs et les P450 (figure supplémentaire 3), qui sont également significativement surreprésentés. Bien que ces traits ne puissent pas être directement liés à la fermentation alimentaire et à la pathogénicité, la régulation est impliquée dans l’adaptation et les P450 jouent des rôles à la fois dans la dégradation du substrat et la production de composés bioactifs, deux éléments pertinents pour la pathogénicité fongique.

Les gènes d’espèces sont surreprésentés dans les régions sub-télomériques

Il a été démontré que les séquences sub-télomériques sont des régions largement réarrangées chez A. nidulans, A. oryzae et A. fumigatus21. Ce phénomène est également observé chez les mammifères, les nématodes et les levures36. Des études antérieures37,38 ont montré que les régions subtélomériques présentent un biais pour les gènes uniques, divergents ou manquants. Une autre étude a montré que les clusters de gènes de métabolites secondaires (SMGC) sont enrichis dans les régions sub-télomériques chez A. nidulans et A. fumigatus21.

Nous avons donc examiné la densité de gènes et la localisation des gènes spécifiques à l’espèce, des clusters de métabolites secondaires et du génome central, en utilisant le génome de A. oryzae comme référence afin d’évaluer la surreprésentation potentielle de ces gènes dans les régions sous-télomériques (Fig. 3).

Fig. 3 : Emplacement des gènes spécifiques à une espèce et des gènes de métabolites secondaires dans le génome de A. oryzae.
figure3

Les barres grises représentent le génome de A. oryzae. Au-dessus du chromosome, les gènes spécifiques à l’espèce (turquoise) et les gènes de métabolites secondaires (orange) sont cartographiés sur le génome, chaque ligne représente un gène. La courbe montre le pourcentage de la densité calculée à partir du nombre total de gènes dans un rayon de 30 kbp par pas de 5 kb. Sous le génome, les gènes centraux sont cartographiés par les points gris et la densité du nombre total de gènes est représentée par le graphique noir (avec une fenêtre de 30 kbp).

L’inspection visuelle et le test exact de Fisher ont confirmé que les gènes spécifiques aux espèces (valeur p = 7.266e-07) et les SMGC (p-value < 2.2e-16) sont enrichis vers les régions sub-télomériques (100 kbp des extrémités chromosomiques), alors que les gènes centraux se trouvent moins souvent dans les régions sub-télomériques. Le fait que les gènes spécifiques d’une espèce ne soient pas distribués au hasard ne permet pas de conclure qu’il s’agit simplement d’erreurs d’annotation ou de modélisation de gènes, ce qui indique qu’il s’agit bien de gènes légitimes. La distribution des gènes spécifiques d’une espèce suggère que les nouveaux gènes sont plus fréquemment incorporés avec succès dans les régions subtélomériques qu’à d’autres endroits. Que cela soit le résultat d’une sélection pour la région sous-télomérique, ou d’une contre-sélection contre d’autres régions, ou les deux, les données ne le révèlent pas.

L’analyse de la synténie révèle des îlots de contenu génétique très variable

Les régions syntétiques et non syntériques sont un autre facteur à prendre en compte lors de l’analyse de la localisation du génome. Il a été démontré que le génome d’A. oryzae présente un modèle en mosaïque de régions synténiques et non synténiques par rapport à des Aspergilli distants1,2. Nous avons examiné la synténie à travers la section Flavi et dans A. nidulans et A. fumigatus en utilisant A. oryzae RIB40 comme référence (Tableau 1). Cette analyse soutient notre constatation antérieure selon laquelle A. oryzae est plus étroitement liée à A. aflatoxiformans qu’à A. flavus.

Tableau 1 Pourcentage du génome avec une synténie conservée par rapport à A. oryzae.

Un aperçu des gènes synténiques partagés est illustré dans la figure supplémentaire 6. En général, il y a moins de régions de synténie vers les extrémités télomériques comme précédemment vu1,2 dans une comparaison de A. nidulans, A. fumigatus, et A. oryzae. Nous avons en outre observé que les chromosomes 1 et 2 ont un très haut degré de conservation de la synténie, tandis que les chromosomes 6 et 8 ont une conservation beaucoup plus faible de la synténie.

Nous trouvons des îlots denses de gènes non-syntétiques dans les régions non-sub-télomériques sur les chromosomes 4, 6 et 8. Ceux-ci pourraient être causés par le transfert horizontal de gènes (HGT), le brassage de gènes, ou la formation de gènes de novo. Nous avons recherché les HGT en utilisant BLASTp pour examiner les meilleurs résultats dans la base de données non redondante du NCBI. On s’attend à ce que les HGT récentes aient une identité de séquence élevée avec un autre groupe d’espèces d’où elles auraient été transférées, et qu’elles ne soient pas trouvées dans les espèces étroitement apparentées39. Aucune de ces îles n’a montré de signes de HGT récents. En outre, seuls 23 des 80 gènes des îlots non synténiques étaient spécifiques à A. oryzae. Il semble donc probable que ces îlots non synténiques soient causés par un mélange de réarrangements significatifs, d’événements de duplication et d’émergence de gènes spécifiques à A. oryzae.

Ensemble, le fait que nous observions certains chromosomes très conservés et certains blocs non synténiques fortement réarrangés pourrait indiquer une pression évolutive pour la stabilité dans certaines régions, tandis que d’autres régions sont fréquemment sujettes à des brassages et des réarrangements de gènes, c’est-à-dire, points chauds de réarrangement.

La section Flavi est une riche source d’enzymes actives sur les glucides

Les enZymes actives sur les glucides (CAZymes) sont essentielles pour savoir quelles sources de carbone une espèce peut dégrader et utiliser. Dans la section Flavi, les CAZymes/utilisation du carbone sont principalement décrits pour A. oryzae1,2,40 et dans une moindre mesure pour A. flavus41,42,43,44,45 et A. sojae46,47, tandis que seules des études accessoires ont été réalisées avec d’autres espèces de ce groupe48,49,50,51,52,53,54, décrivant souvent la production ou la caractérisation d’une certaine activité ou protéine CAZyme, respectivement.

Nous avons utilisé la base de données CAZy pour prédire le contenu CAZyme dans les génomes de la section (Fig. 4). Un total de 13 759 CAZymes a été prédit pour les 23 espèces de Flavi (moyenne de 598/espèce). Ceci est assez riche par rapport à la référence incluse Aspergilli (508/espèce).

Fig. 4 : Enzymes actives sur les glucides (CAZymes) dans la section Flavi.
figure4

a Le nombre total de CAZymes dans chaque espèce réparti sur six catégories d’activité enzymatique : activités auxiliaires, molécules de liaison aux hydrates de carbone, estérases d’hydrates de carbone, glycoside hydrolases, glycosyltransférases et lyases de polysaccharides. b Boxplot représentant la diversité du contenu et de l’abondance de la famille CAZyme parmi le clade A. flavus (bleu clair), A. tamarii (jaune), A. nomius (bleu foncé), A. alliaceus (turquoise clair), le reste de la section Flavi (orange), les autres Aspergilli (turquoise foncé), et les espèces non-Aspergillus (gris). Pour chaque classe de CAZymes, le nombre total de CAZymes (ligne supérieure) et le nombre de familles de CAZymes uniques (ligne inférieure) sont affichés. Dans le boxplot, la ligne médiane représente la médiane, la limite supérieure et inférieure de la boîte représente le troisième et le premier quartile, et les moustaches s’étendent jusqu’à 1,5 fois l’interquartile.

Il est clair à partir de cette analyse qu’il y a une différence distincte entre les clades de la section Flavi (Fig. 4b), montrant à nouveau une variation du contenu génétique dans la section.

La teneur variable en CAZyme ne reflète pas la capacité à dégrader la biomasse végétale

Pour évaluer la capacité réelle d’utilisation du carbone à travers la section Flavi, nous avons réalisé le profilage de la croissance de 31 espèces (29 Aspergilli, dont 23 espèces de la section Flavi) sur 35 substrats liés à la biomasse végétale (Fig. 5, Données supplémentaires 1) et nous avons comparé cela avec la prédiction de la teneur en gènes CAZyme liée à la dégradation de la biomasse végétale (Données supplémentaires 2). Dans une étude précédente, la variation de la croissance entre des Aspergilli distants pourrait être liée à des différences dans le contenu du gène CAZyme55, mais ce n’était pas le cas pour les espèces plus proches de la section Nigri d’Aspergillus16.

Fig. 5 : Enzymes actives sur les glucides dans la section Flavi triées selon le phylogramme de la Fig. 1.
figure5

a Carte thermique représentant les profils de croissance de 23 espèces Flavi et de 8 espèces supplémentaires sur 35 milieux différents. b Comparaison des ensembles CAZyme liés à la dégradation de la biomasse végétale dans les génomes des espèces de la section Flavi d’Aspergillus, et de certains autres champignons. Les couleurs reflètent les polysaccharides envers lesquels les enzymes sont actives.

Le glucose a entraîné la meilleure croissance de tous les monosaccharides pour toutes les espèces et a donc été utilisé comme référence interne pour la croissance (figure supplémentaire 7). La croissance sur d’autres sources de carbone a été comparée à la croissance sur le d-glucose et cette différence relative a été comparée entre les espèces. La croissance sur les monosaccharides était largement similaire entre les espèces de la section Flavi (Fig. 5, Fig. 7 supplémentaire, et Données supplémentaires 1).

Les ensembles CAZyme liés à la dégradation de la biomasse végétale sont globalement très similaires pour la section Flavi (Fig. 5), à l’exception de A. coremiiformis, qui présente un ensemble de gènes fortement réduit. Ceci est principalement dû à la réduction des familles de glycosides hydrolases, mais aussi à un certain nombre de familles liées à la dégradation de la pectine, du xylane et du xyloglucane. De manière surprenante, cette espèce a montré une meilleure croissance relative sur le xylane que la plupart des autres espèces, tandis que la croissance sur les autres polysaccharides était principalement similaire à celle de la section Flavi. Ainsi, le jeu de gènes réduit n’a pas réduit sa capacité à dégrader la biomasse végétale. Cela pourrait être similaire au cas de T. reesei, qui a également un ensemble de gènes CAZyme réduit, mais qui produit les enzymes correspondantes à des niveaux très élevés56. Cependant, l’origine de cette approche est probablement très différente, car sa teneur en CAZyme a été façonnée par la perte puis le gain HGT massif d’enzymes de dégradation des parois cellulaires végétales57, alors qu’aucune indication de cela n’est présente pour A. coremiiformis.

Les différences hydrolytiques sont spécifiques aux clades au sein de la section Flavi (Données supplémentaires 2). Le clade A. togoensis a un ensemble réduit de gènes xylanolytiques et xyloglucanolytiques, mais cela ne se reflète pas dans la croissance. En revanche, les gènes GH115 (alpha-glucuronidase) sont développés dans les clades A. flavus, A. tamarii et A. nomius (des enzymes ou une activité xylanolytiques ont été signalées chez plusieurs espèces de ces clades49,50,51,53,58,59,60,61,62), le gène GH62 (arabinoxylan arabinofuranohydrolase) a été développé dans le clade A. leporis, et les clades A. leporis et A. avenaceus étaient les seuls clades avec CE15 (glucuronoyl estérases), qui ont également été trouvés dans les espèces d’Aspergillus en dehors de la section Flavi.

La capacité de dégradation du galactomannane a été presque entièrement conservée dans la section Flavi, mais de façon intéressante la croissance sur la gomme de guar qui se compose principalement de galactomannane était variable entre les espèces. De même, la capacité amylolytique réduite des clades A. togoensis et A. avenaceus n’a pas entraîné une réduction de la croissance sur l’amidon ou le maltose.

On a observé une variation du nombre de gènes pectinolytiques. Les différences les plus prononcées étaient l’absence des gènes PL11 (rhamnogalacturonan lyase) de la plupart des espèces de la section Flavi, et l’expansion de GH78 (alpha-rhamnosidase) dans les clades A. flavus et A. tamarii. Cependant, ces différences et les plus petites dans d’autres familles n’ont pas entraîné de grandes variations dans la croissance sur la pectine.

Des différences plus évidentes étaient présentes lors de la croissance sur le cellobiose, le lactose et la lignine. La plupart des espèces ont mal poussé sur le cellobiose malgré un nombre similaire de gènes codant pour la bêta-glucosidase dans la plupart des espèces (données supplémentaires 2). De même, seule A. arachidicola, et dans une moindre mesure A. albertensis, a bien poussé sur le lactose, alors que le nombre de bêta-galactosidases dans ces espèces est similaire à celui des autres espèces. Le plus intéressant a été la découverte que A. albertensis a poussé aussi bien sur la lignine que sur le d-glucose, ce qui suggère des applications potentielles dans la production de biocarburants.

En résumé, le potentiel CAZyme dans la section Flavi est largement conservé (à l’exception de A. coremiiformis) avec quelques variations dans les nombres de copies, mais le potentiel génomique et les variations ne sont pas nécessairement reflétés dans la croissance. Il est donc probable que, comme suggéré précédemment55, les différences observées se situent en grande partie au niveau réglementaire.

La famille de CAZymes GH28 est gonflée dans le clade A. flavus

Nous nous sommes particulièrement intéressés aux CAZymes GH28, car ils sont importants pour la fermentation alimentaire et la qualité du produit fermenté final63. Nous avons créé un arbre phylogénétique de tous les membres de GH28 de la section Flavi (figure supplémentaire 8). L’arbre se compose de 429 protéines, en moyenne 18,7 par espèce.

Dans l’arbre, il existe différents groupes. Cinq groupes ont des membres des 23 espèces, neuf groupes manquent une à quatre espèces (généralement A. coremiiformis et A. caelatus), et deux groupes sont spécifiques aux clades A. flavus, A. tamarii, et A. nomius. Enfin, il y a huit groupes contenant 2-13 espèces, qui ne suivent pas la phylogénie – ce qui suggère qu’ils sont des sources de variation du GH28.

En général, les espèces du clade A. flavus ont un nombre élevé de membres du GH28. A. sojae est connu pour avoir un nombre élevé de GH28, ce qui est également vu ici avec 24 membres ; cependant, A. sergii a un nombre encore plus élevé avec 25 membres. Il pourrait être intéressant d’étudier si cela pourrait être exploité soit en utilisant A. sergii comme une nouvelle espèce dans la fermentation alimentaire et/ou comme une source de nouvelles enzymes.

Analyse du métabolisme secondaire

Le genre Aspergillus est connu pour produire un grand nombre de SMs et le nombre de SMGCs prédits est encore plus élevé. La majorité des SMGC prédites ne sont pas caractérisées et ont donc le potentiel de produire une diversité de nouveaux composés bioactifs. Nous avons examiné la diversité et le potentiel de production de SM dans la section Flavi, à la fois quantitativement en termes de nombre de clusters, et qualitativement en termes de composés que ces clusters pourraient potentiellement produire.

Le métabolisme secondaire de la section Flavi est diversifié et prolifique

Pour évaluer quantitativement le potentiel de production de SM, les SMGC ont été prédits à l’aide d’un outil de prédiction de type SMURF64 pour toutes les espèces, à l’exception de N. crassa et A. sojae, car celles-ci ont été séquencées par d’autres méthodes et avec des méthodes d’appel de gènes dissemblables (Fig. 6c). Dans les 28 espèces d’Aspergillus, il y a un total de 1972 SMGC prédits et pour les génomes de la section Flavi, le total est de 1606 SMGC (73/espèce). Cela représente plus de 15 supplémentaires par espèce par rapport au très prolifique genre Penicillium65.

Fig. 6 : Déréplication des composés connus et des gènes dorsaux de métabolites secondaires prédits par espèce.
figure6

a Un dendrogramme représentant la relation phylogénétique entre les espèces. Les boîtes noires dans les nœuds représentent les familles de grappes de gènes de métabolites secondaires (SMGC) partagées entre les espèces se ramifiant à partir de ce nœud. S’il n’y a pas de boîte noire, il n’y a aucun cluster partagé. Les cases grises aux extrémités indiquent le nombre de familles SMGC uniques trouvées uniquement dans une espèce pour la section Flavi. b Matrice indiquant la présence et l’absence de familles SMGC couplées à des clusters connus de la base de données MIBiG66 pour chaque espèce. Une vue d’ensemble de la famille de clusters pour l’aflatoxine se trouve dans la figure supplémentaire 11. c Gènes de métabolites secondaires prédits pour chaque espèce, divisés par l’enzyme de base. DMAT : diméthylallyltransférase (prényltransférases), HYBRID : gène de base contenant des domaines des bases NRPS et PKS, NRPS : peptide non ribosomal synthétase, NRPS-like : peptide non ribosomal synthétase like, contenant au moins deux domaines spécifiques NRPS et un autre domaine ou un domaine NRPS A en combinaison avec le domaine NAD binding 4 ou une déshydrogénase à chaîne courte, PKS : polykétide synthase, PKS-like : polykétide synthase like, contenant au moins deux domaines spécifiques PKS et un autre domaine, TC : terpène cyclase.

Nous avons voulu examiner à quel point les SMGC sont uniques, et avons donc construit des familles de SMGC (Données supplémentaires 3). Pour l’ensemble des données, nous avons pu les regrouper en 477 familles de SMGC, et pour la section Flavi 308 familles de SMGC. Parmi celles-ci, 150 clusters SMGC ne sont trouvés que dans une seule espèce de la section Flavi (Fig. 6a), montrant un grand nombre de clusters uniques dans chaque espèce (6,8 SMGC uniques/espèce). Par rapport à Aspergillus section Nigri, le nombre de clusters par espèce dans cette étude est légèrement inférieur, mais le nombre de membres dans chaque famille SMGC est également inférieur, démontrant une plus grande diversité dans le métabolisme secondaire dans la section Flavi par rapport à la section Nigri.

La déréplication du métabolisme secondaire prédit les producteurs de toxines

Pour évaluer qualitativement le potentiel de production de SM, nous avons utilisé un pipeline de « déréplication génétique » où les clusters prédits sont associés à des clusters caractérisés vérifiés (de la base de données MIBiG66) dans une méthode de culpabilité par association67. Sur cette base, 20 familles de clusters ont été couplées à une famille composée (Fig. 6b). Certaines familles de clusters ont été trouvées dans tous ou presque tous les génomes de Flavi, par exemple, celles qui sont similaires aux clusters naphthopyrone68, nidulanine A69, azanigérone70, 4,4′-pipérazine-2,5-diyldiméthyl-bis-phénol, et aflavarine71/endocrocine72,73. La plupart des familles suivent généralement les groupes phylogénétiques, ce qui suggère un modèle de distribution basé sur la perte, mais certaines, comme les familles SMGC similaires aux clusters de l’asperfuranone74, de la pseurotine A75 ou de la fumagilline76, ne suivaient pas la phylogénie. De plus, des producteurs potentiels de toxines connues telles que l’aflatoxine et l’aspirochlorine ont été identifiés (Fig. 6b).

La combinaison des données et de l’analyse relie un composé à un cluster

En prolongement des clusters SMGC connus, nous étions intéressés à relier les composés et les clusters sur la base du modèle de présence/absence des composés produits et des clusters prédits. Nous avons donc créé une carte thermique de toutes les familles de clusters trouvées dans au moins cinq espèces, ajouté les familles de composés prédites à partir de la déréplication de MIBiG, en plus des familles de composés conservées manuellement à partir d’une étude de la littérature (figure supplémentaire 9). En plus de cela, nous avons mesuré la production de SM des espèces Flavi (Données supplémentaires 4).

Les miyakamides ont présenté un intérêt particulier. Ils ont été isolés à l’origine d’un isolat de A. flavus et il a été démontré qu’ils ont des propriétés antibiotiques77, mais le groupe de gènes biosynthétiques n’est pas connu. Notre analyse chimique a montré une production dans A. sojae, A. nomius, A. parasiticus, A. novoparasiticus, et A. transmontanensis.

Nous avons effectué une rétro-biosynthèse à partir de la structure chimique et prédit que le cluster de gènes biosynthétiques devrait contenir une synthétase de peptide nonribosomal (NRPS) avec 2-3 domaines d’adénylation (puisque deux des trois acides aminés sont similaires), une N-méthyltransférase, une acétyltransférase, et potentiellement une décarboxylase/déshydrogénase (figure supplémentaire 10A). En recherchant des familles de clusters avec des membres dans toutes les espèces productrices de miyakamide ayant des squelettes NRPS avec 2-3 domaines d’adénylation et un domaine de méthyltransférase, seule une famille de clusters a répondu aux exigences. Cette famille a un squelette NRPS avec un domaine méthyltransférase, trois domaines A chez la plupart des espèces, et deux chez A. novoparasiticus. La prédiction de seulement deux domaines A est très probablement due à une erreur d’annotation puisque la similarité de séquence est conservée avant le début du gène (figure supplémentaire 10B). La taille de l’amas prédit est de 1 à 9 gènes, la différence est probablement causée par des erreurs de prédiction SMGC (tracé de synténie dans la figure supplémentaire 10B). Le tracé de synténie montre que le NRPS et deux petits gènes à fonction inconnue sont largement conservés. Nous proposons donc que le NRPS identifié ainsi que les deux gènes conservés de fonction inconnue soient des candidats probables pour la biosynthèse de la miyakamide.

Le cluster de gènes biosynthétiques de l’aflatoxine est hautement conservé

Peut-être que le métabolite secondaire le plus connu de la section Flavi est l’aflatoxine hautement cancérigène. On sait que les aflatoxines sont produites par de nombreuses espèces de la section Flavi (A. arachidicola, A. luteovirescens, A. flavus, A. minisclerotigenes, A. nomius, A. aflatoxiformans, A. pseudocaelatus, A. pseudonomius, A. pseudotamarii, et certains isolats de A. oryzae)4,10.

L’analyse de déréplication (Fig. 6b) a identifié une famille SMGC prédite comme étant impliquée dans la production de la stérigmatocystine et de l’aflatoxine, soit toutes les espèces des clades A. flavus, A. nomius et A. tamarii, à l’exception de A. tamarii. Un tracé de synténie de la famille SMGC (figure 11 supplémentaire) montre que le groupe est extrêmement bien conservé, sans réarrangements et avec une identité d’alignement élevée pour les gènes d’aflatoxine. Seul A. caelatus a une forme tronquée avec seulement les gènes aflB, aflC, et aflD et A. tamarii semble avoir une perte complète du cluster. Il est intéressant de noter que la plupart des clusters prédits ne comprenaient pas les gènes aflP et aflQ qui sont responsables de la dernière étape de la biosynthèse des aflatoxines. Nous avons recherché aflP dans les génomes (figure 12 supplémentaire) et l’avons trouvé dans tous les génomes, mais avec des sites de départ différents et une séquence supplémentaire au milieu des protéines. Les données RNA-seq confirment ces modèles (Supplementary Fig. 13) et suggèrent des erreurs dans les modèles de gènes d’A. flavus. De même, le gène aflQ est présent dans toutes les autres espèces, mais à 5-10 gènes des groupes prédits. Ainsi, une analyse détaillée montre que toutes ces espèces possèdent les gènes nécessaires à la biosynthèse des aflatoxines.