Een eenvoudige in silico benadering voor het genereren van genexpressie profielen uit subsets van kankergenomics data

In het afgelopen decennium hebben vorderingen in de genoomtechnologieën de identificatie mogelijk gemaakt van moleculaire mechanismen van biologische processen en ziekten, die van invloed zijn op alle gebieden van klinisch onderzoek, kanker in het bijzonder. Intratumorale heterogeniteit, dynamische veranderingen in het genoom van kankercellen en genetische afwijkingen zijn unieke vingerafdrukken voor elk type kanker. Deze kenmerken van kanker, in combinatie met prognostische subtype-indelingen en risicostratificatie, hebben aangetoond dat genexpressieprofilering een beter inzicht verschaft in de moleculaire achtergronden van bijvoorbeeld prognose en therapiegevoeligheid bij kanker. Bovendien is genexpressieprofilering een krachtige moleculaire benadering om de gevoeligheid voor geneesmiddelen te voorspellen.

Om catalogi van genomische veranderingen in verschillende kankertypes te genereren, worden gecoördineerde grootschalige kankergenomische projecten ontwikkeld. De twee belangrijkste projecten zijn de Cancer Genome Atlas (TCGA) en het International Cancer Genome Consortium (ICGC) , waarbij veel centra betrokken zijn die verschillende platforms gebruiken om kankergenomica-informatie zoals genexpressie, DNA-mutaties, DNA-methylering, eiwit-expressie en klinische gegevens te verstrekken. Deze projecten leveren grote hoeveelheden genoomgegevens op om onderzoekers te helpen bij het genereren of testen van nieuwe hypothesen die uiteindelijk kunnen helpen bij de ontwikkeling van nieuwe kankertherapieën, diagnosemethoden en preventieve strategieën . De exploratie, integratie en analyse van de grote hoeveelheden gecompliceerde gegevens is echter een uitdaging, vooral voor wetenschappers die geen achtergrond hebben in computationele programmering of informatica.

Het effectieve gebruik van de grote hoeveelheden kankergenoomgegevens blijft een uitdaging vanwege de beperkingen van computationele methodologieën en onvoldoende begeleiding. Datavisualisatie is zeer nuttig voor een efficiënte data-analyse en er zijn geavanceerde instrumenten ontwikkeld om datavisualisatie te vergemakkelijken, zoals de open-access portalen cBioPortal, UCSC Cancer Browser en canEvolve (tabel 1). Echter, open-access portalen vergemakkelijken vooral het onderzoek van grote datasets en zijn soms beperkt bij het verkennen van de datasets in meer diepgang. Hier beschrijven we een eenvoudige maar effectieve methode om subsets van monsters of patiënten met een specifieke genetische, biologische of klinische interesse te onderzoeken. We richten ons op profilering van genexpressie en presenteren een methode voor de analyse van genexpressiegegevens in relatie tot DNA-methylering en eiwitexpressie (tabel 2), die kan worden geïntegreerd om onderzoekshypothesen voor specifieke soorten kanker te testen.

Tabel 2. Overzicht van verschillende kankergenomica-gegevens en type voor profilering.
Genomisch type Data
Genexpressie RNA-seq
RNA van tumor (microarray)
DNA-methylering Methylering (HM27)
Proteïne-expressie Reverse-fase proteïne array (RPPA)

Materialen &methoden

Protocol voor in silico genexpressie profilering

Genexpressie profilering is een krachtige techniek om biologische processen op moleculair niveau te bestuderen. Gen activiteit, of expressie, kan worden beoordeeld door eiwit identificatie, maar gen expressie wordt meestal onderzocht door het onderzoeken van de RNA boodschap of transcript. Twee high-throughput methoden die gewoonlijk worden gebruikt voor uitgebreide genexpressieprofilering zijn RNA-sequencing met next-generation sequencing (NGS) en DNA-microarrays .

In het algemeen zijn er twee soorten genexpressiebenaderingen bij kanker: de differentiële en de relatieve analyse. In de differentiële benadering worden tumor expressie profielen ten opzichte van de patiënt gematchte of niet-gematchte normaal weefsel monsters opgehelderd, terwijl de relatieve benadering transcript niveaus vergelijkt tussen tumor types of cel en weefsel monsters. Afhankelijk van de specifieke benadering kan genexpressieprofilering van monsters en specimens niet alleen inzicht verschaffen in de biologie, maar ook in details over structuur, veranderingen en variaties van transcripten. Veel open-access portalen vergemakkelijken hulpmiddelen voor de exploratie van genexpressiegegevens. Ons protocol wordt geïllustreerd met de tool die door cBioPortal . De andere open-access portals zoals UCSC Cancer Browser en canEvolve kan ook worden gebruikt voor de exploratie van genomische gegevens. Wij bieden een stap-voor-stap protocol met de volgende hoofdstukken (Supplemental Protocol):

Overzicht en selectie van kanker dataset van belang (cBioPortal);

Creatie van case sets/subsets van belang in één enkele studie;

Integratieve analyse van genen in één enkele studie. Na het definiëren van het kankeronderzoek dat van belang is in sectie 1 en het creëren van subsets van monsters/patiënten met klinische of genetische gegevens die van belang zijn in sectie 2. Dit gedeelte classificeert elk gen in elk monster en wordt gebruikt voor alle genomische gegevensanalyse en -visualisatie;

Verzameling van genexpressie- en eiwitexpressiegegevens;

Verzameling van methyleringsgegevens;

Correlatieanalyse. Om de correlatie tussen genexpressie en methyleringsstatus of eiwitniveau te onderzoeken, biedt deze sectie een hulpmiddel om de relatie te plotten;

Grafische visualisatie en statistische analyse. Visualisatie en analyse van gevalreeksen van mRNA-expressie-, methylerings- of eiwitexpressiegegevens verzameld in sectie 5, of gegevens van correlatieanalyse van sectie 6.

Resultaten & discussie

Resultaten

Mutaties in het IDH1-gen zijn voorouderlijke gebeurtenissen bij de vorming van laaggradig glioom en secundair glioblastoom . De aanwezigheid van een IDH1 mutatie (IDH1MUT) is geassocieerd met een langere overleving van glioompatiënten in vergelijking met IDH1 wild-type (IDH1WT) patiënten . Gebruikmakend van de klinische uitkomstmogelijkheden van de cBioPortal, wordt de overleving geïllustreerd in een algemene overlevingsplot met een ongeveer zes maal langere overleving van IDH1MUT glioompatiënten in vergelijking met IDH1WT glioompatiënten (figuur 1).

Figuur 1. Representatieve analyse van totale overlevingscurves die IDH1MUT- en IDH1WT-glioma-patiënten in de TCGA-database vergelijken.

Voor de analyse werd het samengevoegde cohort van laaggradig glioom en glioblastoma multiforme (TCGA, Cell 2016) studie geanalyseerd, waaronder 411 IDH1MUT- versus 401 IDH1WT-glioma-patiënten. Totale overleving Kaplan-Meier plot toont ongeveer zesvoudig verlengde overleving van IDH1MUT glioompatiënten (rood) in vergelijking met IDH1WT glioompatiënten (blauw).

IDH1MUT induceert metabole herbedrading die niet volledig wordt begrepen, maar exploratie van verschillen in expressieniveaus van metabole enzymen is een veelbelovende onderzoeksaanpak. De effecten van IDH1MUT op de expressie van genen die coderen voor metabole enzymen bieden een kans om de mogelijkheden van het cBioPortal voor data-integratie, -exploratie en -analyse te demonstreren. TCGA biedt gegevens van 112 IDH1WT versus 399 IDH1MUT laaggradig glioom (LGG) monsters en 157 IDH1WT versus negen IDH1MUT glioblastoma monsters om te onderzoeken en te integreren voor analyse.

In glucose metabolisme werden genen geselecteerd die coderen voor rate-limiting metabolische enzymen: GLUT1/3, HK1, HK2, HK3, PKLR, PKM2, LDHA en LDHB. In IDH1WT versus IDH1MUT LGG en glioblastoma patiënt monsters, hogere niveaus van genexpressie werden waargenomen voor GLUT3, HK2, PKM2 en LDHA (figuur 2), wat suggereert dat IDH1WT glioom meer afhankelijk zijn van glycolyse voor ATP productie dan IDH1MUT glioom.

Figuur 2. Representatieve analyse van mRNA expressieniveaus van enzymen die betrokken zijn bij glucosemetabolisme in IDH1WT versus IDH1MUT glioom.

Analyse van IDH1WT (n = 112) en IDH1MUT (n = 399) laaggradig glioom en IDH1WT (n = 157) en IDH1MUT (n = 9) glioblastoma monsters, verkregen uit de cBioPortal met behulp van de TCGA datasets Brain Lower Grade Glioma (voorlopig) en Glioblastoma Multiforme (voorlopig). Samengevoegde gegevens van relatieve mRNA expressieniveaus worden getoond voor IDH1WT (blauw) en IDH1MUT (rood).

***p < 0.001; ****p < 0.0001.

G6PD: Glucose-6-fosfaat dehydrogenase; GLUT: Glucose transporter; HK: Hexokinase; LDH: Lactate dehydrogenase; PK: Pyruvate kinase.

Aangezien mutaties in IDH1/2 ook voorkomen bij 20% van de patiënten met myeloïde neoplasma’s, waaronder AML, wordt een voorbeeld van mRNA expressie-analyse van de drie groepen, IDHWT, IDH1MUT en IDH2MUT, gepresenteerd in figuur 3. De studie van acute myeloïde leukemie (AML; TCGA, Voorlopig) biedt 136 IDHWT, 16 IDH1MUT en 16 IDH2MUT AML monsters om gen-expressie profielen te onderzoeken. In Figuur 3, mRNA expressieniveaus van het ATM-gen, een DNA-schade-response-eiwit , in IDHWT, IDH1MUT en IDH2MUT AML monsters geven aan dat ATM mRNA expressie ernstig is afgenomen in IDH1MUT AML.

Figuur 3. Representatieve analyse van mRNA expressieniveaus van het ATM-gen in IDHWT, IDH1MUT en IDH2MUT acute myeloïde leukemie monsters.

Analyse van IDHWT (n = 138), IDH1MUT (n = 16) en IDH2MUT (n = 16) acute myeloïde leukemie monsters, verkregen uit de cBioPortal met behulp van de TCGA datasets Acute Myeloïde Leukemie (voorlopig). Gegevens van relatieve mRNA expressieniveaus worden getoond voor IDHWT (blauw), IDH1MUT (rood) en IDH2MUT (groen).

**p < 0.01.

Een ander voorbeeld wordt geïllustreerd in figuur 4, dat is een plot van genexpressie versus DNA-methylering van het LDHA-gen in LGG. Lagere expressieniveaus van LDHA zoals waargenomen in IDH1MUT glioom werden geassocieerd met hypermethylering van de promotor (Figuur 4A), maar lagere expressieniveaus van LDHB gen in IDH1WT niet gecorreleerd met methylering (Figuur 4B).

Figuur 4. Representatieve analyse van de correlatie tussen mRNA-expressie en methylering.

Plot van correlatie van genexpressie en DNA-methylering van het (A)LDHA-gen en (B)LDHB-gen in laaggradig glioom (Brain Lower Grade Glioma, voorlopig) volgens IDH1MUT-status (blauw: IDH1WT, rood: IDH1MUT).

Om te onderzoeken of genexpressieniveaus correleren met eiwitabundantie, wordt een illustratief voorbeeld getoond in figuur 5. In IDH1MUT glioom, lagere gen-expressie niveaus van G6PD werden waargenomen in vergelijking met IDH1WT glioom (figuur 5A), terwijl de eiwitniveaus van G6PD waren gelijk in IDH1MUT en IDH1WT LGG (figuur 5B), wat suggereert dat extra post-translationele mechanismen aan het werk .

Figure 5. Representatieve analyse van de correlatie tussen mRNA-expressie en eiwit abundance.

(A) Analyse van genexpressie niveaus van G6PD in laaggradig glioom (LGG) in correlatie met (B) eiwit abundantie van G6PD volgens IDH1MUT status (blauw: IDH1WT, rood: IDH1MUT). (C) Plot van correlatie van genexpressie en eiwitabundantie.

****p < 0.0001.

LGG: Low-grade glioma; ns: Niet significant.

Constante innovatie heeft ons begrip van kanker aanzienlijk vergroot, maar heeft er ook voor gezorgd dat kankeronderzoek een van de meest data-intensieve gebieden van de biologie is geworden. Goed gestructureerde en georganiseerde kanker-genomica-projecten bieden onderzoekers enorme hoeveelheden tumormonsters die op dezelfde wijze worden geprepareerd, genormaliseerd en verwerkt voor computationele analyse om ons begrip van de kankergenetica uit te breiden. Het protocol dat hier wordt vermeld in combinatie met open-access tools verlaagt de drempels van toegang tot deze complexe gegevens en biedt datamining in meer diepte om de vertaling van genomische gegevens in nieuwe biologische en klinische inzichten te versnellen.

Het kanker-genomics project van glioma was een van de eerste projecten van TCGA die goed gestructureerde gegevens van tumormonsters van meerdere platforms leverde. Genomische analyse van deze gegevens identificeerde klinisch relevante subtypes van glioblastoma en scheidde drie verschillende moleculaire klassen in laaggradig glioom af, waaronder de klasse met de IDH-mutatie . Open-access portals vergemakkelijken de toegang tot deze datasets, maar zijn beperkt in het onderzoeken van specifieke groepen. Het protocol behandeld in dit artikel beschrijft een eenvoudige methode om subsets van monsters of patiënten met een specifieke genetische, biologische of klinische interesse, zoals de tumor monsters met een IDH-mutatie te onderzoeken. Ten tweede, het protocol beschrijft hoe expressie profielen van genen die betrokken zijn bij een bepaalde pathway of proces, zoals metabolisme, in deze specifieke subset van monsters te genereren. Dit maakt selectie van individuele genen van belang in plaats van het verkennen van alle genen, en classificeert elk gen in elk monster dat wordt gebruikt voor analyse en visualisatie. Ten slotte wordt multidimensionale analyse verstrekt om genexpressie te onderzoeken in relatie tot DNA-methylering en eiwitexpressie.

Vergelijkbaar met andere beschikbare instrumenten, dit protocol maakt gebruik van web-interface tools die niet nodig extra software. Een kritische stap in het protocol is de selectie van de juiste kanker genomics studie of project dat de gegevens van belang bevat. Op dit moment, veel portals slaan gegevens van datasets uit de literatuur en de TCGA portal. Als voorbeeld biedt cBioPortal momenteel 76 kankergenomicsprojecten van genexpressie (RNAseq en microarray) in combinatie met 21 methylerings- en 41 eiwitexpressieprojecten. De geldigheid van de vergelijking van genomics-gegevens hangt af van hoe goed een monster is gematcht met de referentie in termen van technische (bv. type gegevensverwerking) en biologische (bv. moleculair subtype) biases. Daarom is het gebruik van portals die genomics-gegevens van goed gestructureerde kanker-genomicsprojecten bieden, geen geavanceerde normalisatietechnieken en batchcorrecties nodig.

Samenvattend maakt onze methode de import en integratie mogelijk van een selectieve subset van monsters met specifieke genomische, biologische of klinische interesse, zoals genomische alteratie, mutatie, kankersubtypen of overlevingseigenschappen. Deze methode bevat een uniek concept om genexpressieprofielen te genereren en deze profielen te crosslinken met DNA-methylering en eiwitexpressie, die kunnen worden geïntegreerd om onderzoekshypothesen te testen in specifieke subtypes van kanker.

Toekomstperspectief

Kankeronderzoek heeft zich ontwikkeld tot een van de meest data-intensieve disciplines in de biologie. Het GENIE-project (Genomics Evidence Neoplasia Information Exchange) behoort tot de grootste volledig openbare reeksen kankergenoomgegevens die tot nu toe zijn vrijgegeven. Eenvoudig te beheren portals, zoals cBioPortal, zullen een steeds essentiëlere rol gaan spelen in dit vakgebied.

Author contributions

MK ontwierp en voerde het onderzoek uit, RJM en CJFvN hielden toezicht op de studie, MK en CJFvN schreven het manuscript, alle auteurs lazen en keurden de definitieve versie van het manuscript goed

Financial & competing interests disclosure

Dit onderzoek werd ondersteund door de Nederlandse Kankerbestrijding (KWF subsidies UVA 2014-6839 en AMC 2016.1-10460). De auteurs hebben geen andere relevante affiliaties of financiële betrokkenheid bij enige organisatie of entiteit met een financieel belang in of financieel conflict met het onderwerp of de materialen die in het manuscript worden besproken, afgezien van die welke zijn onthuld.

Bij de totstandkoming van dit manuscript is geen gebruik gemaakt van schrijfhulp.

  • 1. Hanahan D, Weinberg RA. The hallmarks of cancer. Cell 100(1), 57-70 (2000).Crossref, Medline, CAS, Google Scholar
  • 2. Chang JC, Wooten EC, Tsimelzon A et al. Gene expression profiling for the prediction of therapeutic response to docetaxel in patients with breast cancer. Lancet 362(9381), 362-369 (2003).Crossref, Medline, CAS, Google Scholar
  • 3. Byron SA, Van Keuren-Jensen KR, Engelthaler DM, Carpten JD, Craig DW. Translating RNA sequencing into clinical diagnostics: opportunities and challenges. Nat. Rev. Genet. 17(5), 257-271 (2016).Crossref, Medline, CAS, Google Scholar
  • 4. International Cancer Genome C, Hudson TJ, Anderson W et al. International network of cancer genome projects. Nature 464(7291), 993-998 (2010).Crossref, Medline, Google Scholar
  • 5. Chin L, Andersen JN, Futreal PA. Cancer genomics: from discovery science to personalized medicine. Nat. Med. 17(3), 297-303 (2011).Crossref, Medline, CAS, Google Scholar
  • 6. Weeraratna AT, Nagel JE, De Mello-Coelho V, Taub DD. Gene expression profiling: from microarrays to medicine. J. Clin. Immunol. 24(3), 213-224 (2004).Crossref, Medline, CAS, Google Scholar
  • 7. Johnson JM, Castle J, Garrett-Engele P et al. Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays. Science 302(5653), 2141-2144 (2003).Crossref, Medline, CAS, Google Scholar
  • 8. Trapnell C, Williams BA, Pertea G et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat. Biotechnol. 28(5), 511-515 (2010).Crossref, Medline, CAS, Google Scholar
  • 9. Gao J, Aksoy BA, Dogrusoz U et al. Integrative analysis of complex cancer genomics and clinical profiles using the cBioPortal. Sci. Signal 6(269), pl1 (2013).Crossref, Medline, Google Scholar
  • 10. Cerami E, Gao J, Dogrusoz U et al. The cBio cancer genomics portal: an open platform for exploring multidimensional cancer genomics data. Cancer Discov. 2(5), 401-404 (2012).Crossref, Medline, Google Scholar
  • 11. Parsons DW, Jones S, Zhang X et al. An integrated genomic analysis of human glioblastoma multiforme. Science 321(5897), 1807-1812 (2008).Crossref, Medline, CAS, Google Scholar
  • 12. Balss J, Meyer J, Mueller W, Korshunov A, Hartmann C, Von Deimling A. Analyse van de IDH1 codon 132 mutatie in hersentumoren. Acta Neuropathol 116(6), 597-602 (2008).Crossref, Medline, CAS, Google Scholar
  • 13. Bleeker FE, Atai NA, Lamba S et al. The prognostic IDH1(R132) mutation is associated with reduced NADP+-dependent IDH activity in glioblastoma. Acta Neuropathol. 119(4), 487-494 (2010).Crossref, Medline, CAS, Google Scholar
  • 14. Khurshed M, Molenaar RJ, Lenting K, Leenders WP, Van Noorden CJF. In silico gene expression analysis reveals glycolysis and acetate anaplerosis in IDH1 wild-type glioma and lactate and glutamate anaplerosis in IDH1-mutated glioma. Oncotarget 8(30), 49165-49177 (2017).Crossref, Medline, Google Scholar
  • 15. Khurshed M, Aarnoudse N, Hulsbos R et al. IDH1-mutante kankercellen zijn gevoelig voor cisplatine en een IDH1-mutant inhibitor gaat deze gevoeligheid tegen. FASEB J. 32, 6344-6352 (2018).Crossref, Google Scholar
  • 16. Molenaar RJ, Radivoyevitch T, Nagata Y et al. IDH1/2-mutaties sensibiliseren acute myeloïde leukemie voor PARP-inhibitie en dit wordt omgekeerd door IDH1/2-mutantremmers. Clin. Cancer Res. 24(7), 1705-1715 (2018).Crossref, Medline, CAS, Google Scholar
  • 17. Frederiks WM, Bosch KS, De Jong JS, Van Noorden CJ. Post-translationele regulatie van glucose-6-fosfaat dehydrogenase activiteit in (pre)neoplastische laesies in rattenlever. J. Histochem. Cytochem. 51(1), 105-112 (2003).Crossref, Medline, CAS, Google Scholar
  • 18. Verhaak RG, Hoadley KA, Purdom E et al. Integrated genomic analysis identifies clinically relevant subtypes of glioblastoma characterized by abnormalities in PDGFRA, IDH1, EGFR, and NF1. Cancer Cell 17(1), 98-110 (2010).Crossref, Medline, CAS, Google Scholar
  • 19. Cancer Genome Atlas Research N, Brat DJ, Verhaak RG et al. Comprehensive, integrative genomic analysis of diffuse lower-grade gliomas. N. Engl. J. Med. 372(26), 2481-2498 (2015).Crossref, Medline, Google Scholar