Une approche in silico simple pour générer des profils d'expression génétique à partir de sous-ensembles de données génomiques sur le cancer

octobre 5, 2021

Au cours de la dernière décennie, les progrès des technologies génomiques ont permis d’identifier les mécanismes moléculaires des processus biologiques et des maladies, impactant tous les domaines de la recherche clinique, le cancer en particulier. L’hétérogénéité intratumorale, les changements dynamiques dans le génome des cellules cancéreuses et les aberrations génétiques sont des empreintes digitales uniques pour chaque type de cancer . Ces caractéristiques du cancer, associées aux classifications des sous-types pronostiques et à la stratification du risque, ont démontré que le profilage de l’expression génétique permet de mieux comprendre les fondements moléculaires, par exemple, du pronostic et de la sensibilité aux traitements dans le cancer. De plus, le profilage de l’expression génétique est une approche moléculaire puissante pour prédire la sensibilité aux médicaments.

Afin de générer des catalogues d’altérations génomiques dans différents types de cancer, des projets coordonnés de génomique du cancer à grande échelle sont en cours de développement. Les deux principaux projets sont l’Atlas du génome du cancer (TCGA) et le Consortium international du génome du cancer (ICGC) , qui comprend de nombreux centres utilisant différentes plates-formes pour fournir des informations génomiques sur le cancer, telles que l’expression des gènes, les mutations de l’ADN, la méthylation de l’ADN, l’expression des protéines et les données cliniques. Ces projets fournissent de grandes quantités de données génomiques pour aider les chercheurs à générer ou à tester de nouvelles hypothèses qui pourraient en fin de compte contribuer au développement de nouvelles thérapies contre le cancer, de méthodes de diagnostic et de stratégies de prévention. Cependant, l’exploration, l’intégration et l’analyse de ces grandes quantités de données complexes sont difficiles, en particulier pour les scientifiques qui n’ont pas de formation en programmation informatique ou en informatique.

L’utilisation efficace des grandes quantités de données sur le génome du cancer reste un défi en raison des limites des méthodologies informatiques et de l’insuffisance des conseils. La visualisation des données est très utile pour une analyse efficace des données et des outils avancés ont été développés pour faciliter la visualisation des données, tels que les portails en libre accès cBioPortal, UCSC Cancer Browser et canEvolve (tableau 1). Cependant, les portails en libre accès facilitent principalement les enquêtes sur les grands ensembles de données et sont parfois limités lorsqu’il s’agit d’explorer les ensembles de données plus en profondeur. Nous décrivons ici une méthode simple mais efficace pour étudier des sous-ensembles d’échantillons ou de patients présentant un intérêt génétique, biologique ou clinique spécifique. Nous nous concentrons sur le profilage de l’expression génique et présentons une méthode d’analyse des données d’expression génique en relation avec la méthylation de l’ADN et l’expression des protéines (tableau 2), qui peut être intégrée pour tester des hypothèses de recherche pour des types de cancer spécifiques.

Tableau 2. Aperçu des différentes données génomiques du cancer et du type pour le profilage.
Type génomique	Données
Expression génique	ARN-.seq ARN tumoral (microréseau)
Méthylation de l’ADN	Méthylation (HM27)
Expression des protéines	Réseau protéique en phase inverse (RPPA)	.phase inverse (RPPA)

Matériaux & méthodes
Protocole pour le profilage d’expression génique in silico
Résultats & discussion
Résultats représentatifs
Perspective future
Contributions des auteurs
Divulgation des intérêts financiers & concurrents

Matériaux & méthodes

Protocole pour le profilage d’expression génique in silico

Le profilage d’expression génique est une technique puissante pour étudier les processus biologiques au niveau moléculaire. L’activité ou l’expression des gènes peut être évaluée par l’identification des protéines, mais l’expression des gènes est généralement étudiée en examinant le message ou la transcription de l’ARN. Deux méthodes à haut débit qui sont couramment utilisées pour le profilage complet de l’expression génique sont le séquençage de l’ARN avec le séquençage de nouvelle génération (NGS) et les microréseaux d’ADN.

En termes généraux, il existe deux types d’approches de l’expression génique dans le cancer : l’analyse différentielle et l’analyse relative. Dans l’approche différentielle, les profils d’expression de la tumeur par rapport aux échantillons de tissus normaux appariés ou non appariés au patient sont élucidés, tandis que l’approche relative compare les niveaux de transcription entre les types de tumeurs ou les échantillons de cellules et de tissus. En fonction de l’approche spécifique, le profilage de l’expression génétique des échantillons et des spécimens peut fournir des informations non seulement sur la biologie, mais aussi sur la structure, les altérations et les variations des transcrits. De nombreux portails en libre accès facilitent l’utilisation d’outils d’exploration des données d’expression génétique. Notre protocole est illustré avec l’outil fourni par cBioPortal . Les autres portails en accès libre tels que UCSC Cancer Browser et canEvolve peuvent également être utilisés pour l’exploration des données génomiques. Nous fournissons un protocole étape par étape avec les chapitres suivants (Protocole supplémentaire) :

	Vue d’ensemble et sélection du jeu de données sur le cancer d’intérêt (cBioPortal) ;
	Création d’ensembles de cas/sous-ensembles d’intérêt dans une seule étude;
	Analyse intégrative des gènes dans une seule étude. Après avoir défini l’étude de cancer d’intérêt dans la section 1 et créé des sous-ensembles d’échantillons/patients avec des données cliniques ou génétiques d’intérêt dans la section 2. Cette section classe chaque gène dans chaque échantillon et est utilisée pour toutes les analyses et visualisations des données génomiques;
	Collection des données d’expression des gènes et des protéines ;
	Collecte de données de méthylation;
	Analyse de corrélation. Afin d’étudier la corrélation entre l’expression des gènes et soit le statut de méthylation, soit le niveau de protéine, cette section fournit un outil pour tracer la relation;
	Visualisation graphique et analyse statistique. Visualisation et analyse d’ensembles de cas de données d’expression d’ARNm, de méthylation ou d’expression de protéines recueillies à la section 5, ou de données d’analyse de corrélation de la section 6.

Résultats & discussion

Résultats représentatifs

Les mutations du gène IDH1 sont des événements ancestraux dans la formation des gliomes de bas grade et des glioblastomes secondaires . La présence d’une mutation d’IDH1 (IDH1MUT) est associée à une survie prolongée des patients atteints de gliome par rapport aux patients de type sauvage IDH1 (IDH1WT) . En utilisant les possibilités de résultats cliniques du cBioPortal, la survie est illustrée dans un graphique de survie globale avec une survie approximativement six fois plus longue des patients atteints de gliome IDH1MUT par rapport aux patients atteints de gliome IDH1WT (Figure 1).

Figure 1. Analyse représentative des courbes de survie globale comparant les patients atteints de gliome IDH1MUT et IDH1WT dans la base de données TCGA.

Pour l’analyse, la cohorte fusionnée de gliome de bas grade et de glioblastome multiforme (TCGA, Cell 2016) a été analysée, incluant 411 patients atteints de gliome IDH1MUT contre 401 patients atteints de gliome IDH1WT. Le tracé Kaplan-Meier de la survie globale montre une survie environ six fois plus longue des patients atteints de gliome IDH1MUT (rouge) par rapport aux patients atteints de gliome IDH1WT (bleu).

IDH1MUT induit un recâblage métabolique qui n’est pas entièrement compris, mais l’exploration des différences dans les niveaux d’expression des enzymes métaboliques est une approche d’investigation prometteuse. Les effets de l’IDH1MUT sur l’expression des gènes qui codent pour les enzymes métaboliques offrent une occasion de démontrer les possibilités du cBioPortal pour effectuer l’intégration, l’exploration et l’analyse des données. TCGA offre des données de 112 échantillons de gliomes de bas grade (LGG) IDH1WT contre 399 IDH1MUT et 157 échantillons de glioblastomes IDH1WT contre neuf IDH1MUT à étudier et à intégrer pour l’analyse.

Dans le métabolisme du glucose, les gènes qui codent pour les enzymes métaboliques limitant la vitesse ont été sélectionnés : GLUT1/3, HK1, HK2, HK3, PKLR, PKM2, LDHA et LDHB. Dans les échantillons de LGG et de patients atteints de glioblastome IDH1WT par rapport à IDH1MUT, des niveaux plus élevés d’expression génique ont été observés pour GLUT3, HK2, PKM2 et LDHA (Figure 2), ce qui suggère que les gliomes IDH1WT dépendent davantage de la glycolyse pour la production d’ATP que les gliomes IDH1MUT.

Figure 2. Analyse représentative des niveaux d’expression de l’ARNm des enzymes impliquées dans le métabolisme du glucose dans les gliomes IDH1WT versus IDH1MUT.

Analyse des échantillons de gliomes de bas grade IDH1WT (n = 112) et IDH1MUT (n = 399) et de glioblastomes IDH1WT (n = 157) et IDH1MUT (n = 9), obtenus à partir du cBioPortal en utilisant les ensembles de données TCGA Brain Lower Grade Glioma (provisoire) et Glioblastoma Multiforme (provisoire). Les données fusionnées des niveaux d’expression relatifs de l’ARNm sont présentées pour IDH1WT (bleu) et IDH1MUT (rouge).

***p < 0,001 ; ****p < 0,0001.

G6PD : Glucose-6-phosphate déshydrogénase ; GLUT : Glucose transporter ; HK : Hexokinase ; LDH : Lactate déshydrogénase ; PK : Pyruvate kinase.

Comme les mutations de l’IDH1/2 se produisent également chez 20 % des patients atteints de néoplasmes myéloïdes, y compris la LAM, un exemple d’analyse de l’expression de l’ARNm des trois groupes, IDHWT, IDH1MUT et IDH2MUT est présenté dans la figure 3. L’étude de la leucémie myéloïde aiguë (LMA ; TCGA, provisoire) propose 136 échantillons de LMA IDHWT, 16 IDH1MUT et 16 IDH2MUT pour étudier les profils d’expression génique. Dans la figure 3, les niveaux d’expression de l’ARNm du gène ATM, une protéine de réponse aux dommages de l’ADN , dans les échantillons de LAM IDHWT, IDH1MUT et IDH2MUT indiquent que l’expression de l’ARNm ATM est sévèrement diminuée dans la LAM IDH1MUT.

Figure 3. Analyse représentative des niveaux d’expression de l’ARNm du gène ATM dans les échantillons de leucémie myéloïde aiguë IDHWT, IDH1MUT et IDH2MUT.

Analyse des échantillons de leucémie myéloïde aiguë IDHWT (n = 138), IDH1MUT (n = 16) et IDH2MUT (n = 16), obtenus à partir du cBioPortal en utilisant les ensembles de données TCGA Leucémie myéloïde aiguë (provisoire). Les données des niveaux d’expression relatifs de l’ARNm sont présentées pour IDHWT (bleu), IDH1MUT (rouge) et IDH2MUT (vert).

**p < 0,01.

Un autre exemple est illustré dans la figure 4, qui est un tracé de l’expression du gène en fonction de la méthylation de l’ADN du gène LDHA dans le LGG. Les niveaux d’expression plus faibles de LDHA tels qu’observés dans les gliomes IDH1MUT étaient associés à l’hyperméthylation de son promoteur (figure 4A), mais les niveaux d’expression plus faibles du gène LDHB chez les IDH1WT n’étaient pas corrélés à la méthylation (figure 4B).

Figure 4. Analyse représentative de la corrélation entre l’expression de l’ARNm et la méthylation.

Plot de corrélation de l’expression génique et de la méthylation de l’ADN du gène (A)LDHA et (B)LDHB dans les gliomes de bas grade (Brain Lower Grade Glioma, provisoire) en fonction du statut IDH1MUT (bleu : IDH1WT, rouge : IDH1MUT).

Pour étudier si les niveaux d’expression des gènes sont en corrélation avec l’abondance des protéines, un exemple illustratif est démontré dans la figure 5. Dans le gliome IDH1MUT, des niveaux d’expression du gène de la G6PD plus faibles ont été observés par rapport au gliome IDH1WT (Figure 5A), alors que les niveaux de protéines de la G6PD étaient égaux dans les LGG IDH1MUT et IDH1WT (Figure 5B), suggérant des mécanismes post-traductionnels supplémentaires à l’œuvre .

Figure 5. Analyse représentative de la corrélation entre l’expression de l’ARNm et l’abondance des protéines.

(A) Analyse des niveaux d’expression du gène de la G6PD dans les gliomes de bas grade (LGG) en corrélation avec (B) l’abondance des protéines de la G6PD selon le statut IDH1MUT (bleu : IDH1WT, rouge : IDH1MUT). (C) Tracé de la corrélation entre l’expression génique et l’abondance protéique.

****p < 0,0001.

LGG : gliome de bas grade ; ns : Non significatif.

L’innovation constante a grandement contribué à l’expansion de notre compréhension du cancer, mais a également transformé la recherche sur le cancer en l’un des domaines de la biologie les plus gourmands en données. Des projets de génomique du cancer bien structurés et organisés offrent aux chercheurs d’énormes quantités d’échantillons de tumeurs qui sont préparés, normalisés et traités de la même manière pour une analyse informatique afin d’étendre notre compréhension de la génétique du cancer. Le protocole qui est énuméré ici en combinaison avec des outils en libre accès abaisse les barrières d’accès à ces données complexes et offre une exploration des données plus approfondie pour accélérer la traduction des données génomiques en nouvelles connaissances biologiques et cliniques.

Le projet de génomique du cancer du gliome a été l’un des premiers projets de TCGA qui a fourni des données bien structurées d’échantillons de tumeurs provenant de plates-formes multiples. L’analyse génomique de ces données a permis d’identifier des sous-types cliniquement pertinents de glioblastome et de délimiter trois classes moléculaires différentes dans les gliomes de bas grade, y compris la classe avec la mutation IDH . Les portails en libre accès facilitent l’accès à ces ensembles de données mais sont limités dans l’étude de groupes spécifiques. Le protocole abordé dans cet article décrit une méthode simple pour étudier des sous-ensembles d’échantillons ou de patients présentant un intérêt génétique, biologique ou clinique spécifique, tels que les échantillons de tumeurs présentant une mutation IDH. Ensuite, le protocole décrit comment générer des profils d’expression des gènes impliqués dans une voie ou un processus particulier, comme le métabolisme, dans ce sous-ensemble particulier d’échantillons. Cela permet de sélectionner des gènes individuels d’intérêt au lieu d’explorer tous les gènes, et de classer chaque gène dans chaque échantillon qui est utilisé pour l’analyse et la visualisation. Enfin, une analyse multidimensionnelle est fournie pour étudier l’expression des gènes en relation avec la méthylation de l’ADN et l’expression des protéines.

Comparable aux autres outils disponibles, ce protocole utilise des outils d’interface web qui ne nécessitent pas de logiciel supplémentaire. Une étape critique du protocole est la sélection de l’étude ou du projet de génomique du cancer correct qui contient les données d’intérêt. Actuellement, de nombreux portails stockent des données provenant d’ensembles de données de la littérature et du portail TCGA. À titre d’exemple, le portail cBioPortal fournit actuellement 76 projets de génomique du cancer sur l’expression des gènes (RNAseq et microarray) en combinaison avec 21 projets sur la méthylation et 41 sur l’expression des protéines. La validité de la comparaison des données génomiques dépend de la façon dont un échantillon est apparié à la référence en termes de biais techniques (par exemple, le type de traitement des données) et biologiques (par exemple, le sous-type moléculaire). Par conséquent, l’utilisation de portails qui fournissent des données génomiques provenant de projets de génomique du cancer bien structurés ne nécessite pas de techniques de normalisation avancées et de corrections de lots.

En résumé, notre méthode permet l’importation et l’intégration d’un sous-ensemble sélectif d’échantillons présentant un intérêt génomique, biologique ou clinique spécifique, comme une altération génomique, une mutation, des sous-types de cancer ou des propriétés de survie. Cette méthode contient un concept unique permettant de générer des profils d’expression génétique et de croiser ces profils avec la méthylation de l’ADN et l’expression des protéines, qui peuvent être intégrés pour tester des hypothèses de recherche dans des sous-types spécifiques de cancer.

Perspective future

La recherche sur le cancer a évolué vers l’une des disciplines les plus gourmandes en données de la biologie. Le projet Genomics Evidence Neoplasia Information Exchange (GENIE) compte parmi les plus grands ensembles de données génomiques sur le cancer entièrement publics publiés à ce jour. Des portails faciles à gérer, tels que cBioPortal, joueront un rôle de plus en plus essentiel dans cette discipline.

Contributions des auteurs

MK a conçu et réalisé la recherche, RJM et CJFvN ont supervisé l’étude, MK et CJFvN ont rédigé le manuscrit, tous les auteurs ont lu et approuvé la version finale du manuscrit

Divulgation des intérêts financiers & concurrents

Cette recherche a été soutenue par la Société néerlandaise du cancer (subventions KWF UVA 2014-6839 et AMC 2016.1-10460). Les auteurs n’ont aucune autre affiliation pertinente ou participation financière avec toute organisation ou entité ayant un intérêt financier ou un conflit financier avec le sujet ou les matériaux discutés dans le manuscrit en dehors de ceux divulgués.

Aucune aide à la rédaction n’a été utilisée dans la production de ce manuscrit.

1. Hanahan D, Weinberg RA. Les marques de fabrique du cancer. Cell 100(1), 57-70 (2000).Crossref, Medline, CAS, Google Scholar
2. Chang JC, Wooten EC, Tsimelzon A et al. Gene expression profiling for the prediction of therapeutic response to docetaxel in patients with breast cancer. Lancet 362(9381), 362-369 (2003).Crossref, Medline, CAS, Google Scholar
3. Byron SA, Van Keuren-Jensen KR, Engelthaler DM, Carpten JD, Craig DW. Traduire le séquençage de l’ARN en diagnostics cliniques : opportunités et défis. Nat. Rev. Genet. 17(5), 257-271 (2016).Crossref, Medline, CAS, Google Scholar
4. International Cancer Genome C, Hudson TJ, Anderson W et al. Réseau international de projets sur le génome du cancer. Nature 464(7291), 993-998 (2010).Crossref, Medline, Google Scholar
5. Chin L, Andersen JN, Futreal PA. La génomique du cancer : de la science de la découverte à la médecine personnalisée. Nat. Med. 17(3), 297-303 (2011).Crossref, Medline, CAS, Google Scholar
6. Weeraratna AT, Nagel JE, De Mello-Coelho V, Taub DD. Profilage de l’expression génétique : des microréseaux à la médecine. J. Clin. Immunol. 24(3), 213-224 (2004).Crossref, Medline, CAS, Google Scholar
7. Johnson JM, Castle J, Garrett-Engele P et al. Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays. Science 302(5653), 2141-2144 (2003).Crossref, Medline, CAS, Google Scholar
8. Trapnell C, Williams BA, Pertea G et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat. Biotechnol. 28(5), 511-515 (2010).Crossref, Medline, CAS, Google Scholar
9. Gao J, Aksoy BA, Dogrusoz U et al. Analyse intégrative de la génomique complexe du cancer et des profils cliniques en utilisant le cBioPortal. Sci. Signal 6(269), pl1 (2013).Crossref, Medline, Google Scholar
10. Cerami E, Gao J, Dogrusoz U et al. The cBio cancer genomics portal : an open platform for exploring multidimensional cancer genomics data. Cancer Discov. 2(5), 401-404 (2012).Crossref, Medline, Google Scholar
11. Parsons DW, Jones S, Zhang X et al. Une analyse génomique intégrée du glioblastome multiforme humain. Science 321(5897), 1807-1812 (2008).Crossref, Medline, CAS, Google Scholar
12. Balss J, Meyer J, Mueller W, Korshunov A, Hartmann C, Von Deimling A. Analysis of the IDH1 codon 132 mutation in brain tumors. Acta Neuropathol 116(6), 597-602 (2008).Crossref, Medline, CAS, Google Scholar
13. Bleeker FE, Atai NA, Lamba S et al. The prognostic IDH1(R132) mutation is associated with reduced NADP+-dependent IDH activity in glioblastoma. Acta Neuropathol. 119(4), 487-494 (2010).Crossref, Medline, CAS, Google Scholar
14. Khurshed M, Molenaar RJ, Lenting K, Leenders WP, Van Noorden CJF. L’analyse in silico de l’expression génique révèle une anaplérose de la glycolyse et de l’acétate dans le gliome de type sauvage IDH1 et une anaplérose du lactate et du glutamate dans le gliome muté IDH1. Oncotarget 8(30), 49165-49177 (2017).Crossref, Medline, Google Scholar
15. Khurshed M, Aarnoudse N, Hulsbos R et al. Les cellules cancéreuses mutantes IDH1 sont sensibles au cisplatine et un inhibiteur de la mutante IDH1 contrecarre cette sensibilité. FASEB J. 32, 6344-6352 (2018).Crossref, Google Scholar
16. Molenaar RJ, Radivoyevitch T, Nagata Y et al. Les mutations IDH1/2 sensibilisent la leucémie myéloïde aiguë à l’inhibition de la PARP et cela est inversé par les inhibiteurs de mutations IDH1/2. Clin. Cancer Res. 24(7), 1705-1715 (2018).Crossref, Medline, CAS, Google Scholar
17. Frederiks WM, Bosch KS, De Jong JS, Van Noorden CJ. Régulation post-traductionnelle de l’activité de la glucose-6-phosphate déshydrogénase dans les lésions (pré)néoplasiques du foie de rat. J. Histochem. Cytochem. 51(1), 105-112 (2003).Crossref, Medline, CAS, Google Scholar
18. Verhaak RG, Hoadley KA, Purdom E et al. Integrated genomic analysis identifies clinically relevant subtypes of glioblastoma characterized by abnormalities in PDGFRA, IDH1, EGFR, and NF1. Cancer Cell 17(1), 98-110 (2010).Crossref, Medline, CAS, Google Scholar
19. Cancer Genome Atlas Research N, Brat DJ, Verhaak RG et al. Comprehensive, integrative genomic analysis of diffuse lower-grade gliomas. N. Engl. J. Med. 372(26), 2481-2498 (2015).Crossref, Medline, Google Scholar

Savage Rose

Une approche in silico simple pour générer des profils d’expression génétique à partir de sous-ensembles de données génomiques sur le cancer