En simpel in silico tilgang til at generere genekspressionsprofiler fra delmængder af kræftgenomdata

I det seneste årti har fremskridt inden for genomteknologier gjort det muligt at identificere molekylære mekanismer for biologiske processer og sygdomme, hvilket har haft indflydelse på alle områder af klinisk forskning, især kræft. Intratumoral heterogenitet, dynamiske ændringer i kræftcellers genom og genetiske aberrationer er unikke fingeraftryk for hver enkelt kræfttype . Disse kræfttræk i kombination med prognostiske subtypeklassifikationer og risikostratificering har vist, at genekspressionsprofilering giver mulighed for en bedre forståelse af de molekylære baggrunde for f.eks. prognose og behandlingsfølsomhed ved kræft. Desuden er genekspressionsprofilering en effektiv molekylær metode til at forudsige lægemiddelfølsomhed.

For at generere kataloger over genomiske ændringer i forskellige kræfttyper er der ved at blive udviklet koordinerede kræftgenomiske projekter i stor skala. De to vigtigste projekter er Cancer Genome Atlas (TCGA) og International Cancer Genome Consortium (ICGC) , som omfatter mange centre, der anvender forskellige platforme til at levere kræftgenomiske oplysninger såsom genekspression, DNA-mutationer, DNA-methylering, proteinekspression og kliniske data. Disse projekter leverer store mængder genomiske data, der kan hjælpe forskerne med at opstille eller afprøve nye hypoteser, som i sidste ende kan bidrage til udviklingen af nye kræftbehandlinger, diagnostiske metoder og forebyggelsesstrategier . Udforskning, integration og analyse af de store mængder komplicerede data er imidlertid en udfordring, især for forskere, der ikke har en baggrund i computerprogrammering eller informatik.

Den effektive udnyttelse af de store mængder kræftgenomdata er fortsat en udfordring på grund af begrænsningerne i beregningsmetoderne og utilstrækkelig vejledning. Datavisualisering er meget nyttig for effektiv dataanalyse, og der er blevet udviklet avancerede værktøjer til at lette datavisualisering, såsom portalerne med åben adgang cBioPortal, UCSC Cancer Browser og canEvolve (tabel 1). Portaler med åben adgang letter dog hovedsagelig undersøgelser af store datasæt og er undertiden begrænsede, når datasættene skal udforskes mere indgående. Her beskriver vi en enkel, men effektiv metode til at undersøge delmængder af prøver eller patienter med en specifik genetisk, biologisk eller klinisk interesse. Vi fokuserer på profilering af genekspression og præsenterer en metode til analyse af genekspressionsdata i forhold til DNA-methylering og proteinekspression (tabel 2), som kan integreres for at teste forskningshypoteser for specifikke kræfttyper.

Tabel 2. Oversigt over forskellige kræftgenomforskningsdata og type til profilering.
Genomisk type Data
Genekspression RNA-seq
Tumor-RNA (microarray)
DNA-methylering Methylering (HM27)
Proteinekspression Reverse-phase protein array (RPPA)

Materialer &metoder

Protokol for in silico genekspressionsprofilering

Genekspressionsprofilering er en effektiv teknik til undersøgelse af biologiske processer på molekylært niveau. Genaktivitet, eller ekspression, kan vurderes ved identifikation af proteiner, men genekspression undersøges normalt ved at undersøge RNA-meddelelsen eller transkriptet. To højtydende metoder, der almindeligvis anvendes til omfattende genekspressionsprofilering, er RNA-sekventering med næste generations sekventering (NGS) og DNA-mikroarrays .

Generelt er der to typer af genekspressionsmetoder inden for kræft: den differentielle og den relative analyse. I den differentielle tilgang belyses tumorekspressionsprofiler i forhold til de patientmatchede eller ikke-matchede normale vævsprøver, mens den relative tilgang sammenligner transkriptniveauer på tværs af tumortyper eller celle- og vævsprøver. Afhængigt af den specifikke fremgangsmåde kan genekspressionsprofilering af prøver og eksemplarer give indsigt ikke blot i biologi, men også i detaljer om struktur, ændringer og variationer i transkriptioner . Mange portaler med fri adgang gør det muligt at anvende værktøjer til udforskning af genekspressionsdata. Vores protokol er illustreret med det værktøj, der leveres af cBioPortal . Andre portaler med åben adgang, f.eks. UCSC Cancer Browser og canEvolve, kan ligeledes anvendes til udforskning af genomiske data. Vi giver en trin-for-trin-protokol med de næste kapitler (Supplerende protokol):

Oversigt og udvælgelse af kræftdatasæt af interesse (cBioPortal);

Oprettelse af casesæt/undersæt af interesse i en enkelt undersøgelse;

Integrativ analyse af gener i en enkelt undersøgelse. Efter definition af den kræftundersøgelse af interesse i afsnit 1 og oprettelse af delmængder af prøver/patienter med kliniske eller genetiske data af interesse i afsnit 2. Dette afsnit klassificerer hvert gen i hver prøve og anvendes til al analyse og visualisering af genomiske data;

Indsamling af gen- og proteinekspressionsdata;

Indsamling af methyleringsdata;

Korrelationsanalyse. For at undersøge sammenhængen mellem genekspression og enten methyleringsstatus eller proteinniveau indeholder dette afsnit et værktøj til at plotte forholdet;

Grafisk visualisering og statistisk analyse. Visualisering og analyse af casesæt af mRNA-ekspressions-, methylerings- eller proteinekspressionsdata indsamlet i afsnit 5 eller data fra korrelationsanalysen i afsnit 6.

Resultater &diskussion

Repræsentative resultater

Mutationer i IDH1-genet er ancestrale begivenheder i dannelsen af lavgradsgliom og sekundært glioblastom . Tilstedeværelsen af en IDH1-mutation (IDH1MUT) er forbundet med forlænget overlevelse hos gliom-patienter sammenlignet med IDH1-wildtype (IDH1WT) patienter . Ved hjælp af de kliniske udfaldsmuligheder i cBioPortal illustreres overlevelsen i et samlet overlevelsesplot med ca. seks gange længere overlevelse for IDH1MUT-gliom-patienter sammenlignet med IDH1WT-gliom-patienter (figur 1).

Figur 1. Repræsentativ analyse af samlede overlevelseskurver, der sammenligner IDH1MUT- og IDH1WT-gliom-patienter i TCGA-databasen.

Til analyse blev den sammenlagte kohorte af lavgradsgliom- og glioblastoma multiforme-undersøgelsen (TCGA, Cell 2016) analyseret, herunder 411 IDH1MUT- versus 401 IDH1WT-gliom-patienter. Samlet overlevelse Kaplan-Meier-plot viser ca. seks gange forlænget overlevelse for IDH1MUT-gliom-patienter (rød) sammenlignet med IDH1WT-gliom-patienter (blå).

IDH1MUT inducerer metabolisk omfordeling, som ikke er fuldt forstået, men udforskning af forskelle i ekspressionsniveauer af metaboliske enzymer er en lovende undersøgelsestilgang. Virkningerne af IDH1MUT på ekspressionen af gener, der koder for metaboliske enzymer, giver en mulighed for at demonstrere mulighederne i cBioPortal til at udføre dataintegration, udforskning og analyse. TCGA tilbyder data fra 112 IDH1WT versus 399 IDH1MUT-prøver af lavgradsgliom (LGG) og 157 IDH1WT versus ni IDH1MUT-prøver af glioblastom til undersøgelse og integration med henblik på analyse.

I glukosemetabolismen blev der udvalgt gener, der koder for hastighedsbegrænsende metaboliske enzymer: GLUT1/3, HK1, HK1, HK2, HK3, PKLR, PKM2, LDHA og LDHB. I IDH1WT versus IDH1MUT LGG- og glioblastom-patientprøver blev der observeret højere niveauer af genekspression for GLUT3, HK2, PKM2 og LDHA (figur 2), hvilket tyder på, at IDH1WT-gliomer er mere afhængige af glykolyse til ATP-produktion end IDH1MUT-gliomer.

Figur 2. Repræsentativ analyse af mRNA-ekspressionsniveauer af enzymer, der er involveret i glukosemetabolisme i IDH1WT versus IDH1MUT gliom.

Analyse af IDH1WT- (n = 112) og IDH1MUT- (n = 399) lavgradsgliom og IDH1WT- (n = 157) og IDH1MUT- (n = 9) glioblastomprøver, der er indhentet fra cBioPortal ved hjælp af TCGA-datasættene Brain Lower Grade Glioma (foreløbig) og Glioblastoma Multiforme (foreløbig). Sammenlagte data for relative mRNA-ekspressionsniveauer er vist for IDH1WT (blå) og IDH1MUT (rød).

***p < 0,001; ****p < 0,0001.

G6PD: Glucose-6-fosfatdehydrogenase; GLUT: Glukosetransportør; HK: Hexokinase; LDH: Laktatdehydrogenase; PK: Pyruvatkinase.

Da mutationer i IDH1/2 også forekommer hos 20 % af patienter med myeloiske neoplasmer, herunder AML, er et eksempel på mRNA-ekspressionsanalyse af de tre grupper, IDHWT, IDH1MUT og IDH2MUT, vist i figur 3. Undersøgelsen af akut myeloid leukæmi (AML; TCGA, Provisional) tilbyder 136 IDHWT-, 16 IDH1MUT- og 16 IDH2MUT-AML-prøver til undersøgelse af genekspressionsprofiler. I figur 3 viser mRNA-ekspressionsniveauer af ATM-genet, et DNA-skadesresponsprotein , i IDHWT-, IDH1MUT- og IDH2MUT AML-prøver, at ATM mRNA-ekspressionen er alvorligt nedsat i IDH1MUT AML.

Figur 3. Repræsentativ analyse af mRNA-ekspressionsniveauer for ATM-genet i IDHWT-, IDH1MUT- og IDH2MUT-prøver af akut myeloid leukæmi.

Analyse af IDHWT- (n = 138), IDH1MUT- (n = 16) og IDH2MUT- (n = 16) prøver af akut myeloid leukæmi, der er indhentet fra cBioPortal ved hjælp af TCGA-datasættene Acute Myeloid Leukemia (foreløbig). Data for relative mRNA-ekspressionsniveauer er vist for IDHWT (blå), IDH1MUT (rød) og IDH2MUT (grøn).

**p < 0,01.

Et andet eksempel er illustreret i figur 4, som er et plot af genekspression versus DNA-methylering af LDHA-genet i LGG. Lavere ekspressionsniveauer af LDHA som observeret i IDH1MUT gliom var forbundet med hypermethylering af dets promotor (Figur 4A), men lavere ekspressionsniveauer af LDHB-genet i IDH1WT korrelerede ikke med methylering (Figur 4B).

Figur 4. Repræsentativ analyse af korrelationen mellem mRNA-ekspression og methylering.

Plot af korrelation af genekspression og DNA-methylering af (A)LDHA-genet og (B)LDHB-genet i lavgradsgliom (Brain Lower Grade Glioma, foreløbig) i henhold til IDH1MUT-status (blå: IDH1WT, rød: IDH1MUT).

For at undersøge, om genudtryksniveauer korrelerer med proteinoverflod, er et illustrerende eksempel vist i figur 5. I IDH1MUT-gliom blev der observeret lavere genudtryksniveauer af G6PD sammenlignet med IDH1WT-gliom (Figur 5A), mens proteinniveauerne af G6PD var lige store i IDH1MUT og IDH1WT LGG (Figur 5B), hvilket tyder på yderligere post-translationelle mekanismer på arbejde .

Figur 5. Repræsentativ analyse af korrelationen mellem mRNA-ekspression og proteinhyppighed.

(A) Analyse af genekspressionsniveauer af G6PD i lavgradsgliom (LGG) i korrelation med (B) proteinhyppighed af G6PD i henhold til IDH1MUT-status (blå: IDH1WT, rød: IDH1MUT). (C) Plot af korrelation af genekspression og proteinoverflod.

****p < 0,0001.

LGG: Lavgradsgliom; ns: Ikke signifikant.

Kontinuerlig innovation har i høj grad bidraget til at udvide vores forståelse af kræft, men har også forvandlet kræftforskningen til et af de mest dataintensive områder inden for biologien. Velstrukturerede og organiserede kræftgenomforskningsprojekter tilbyder forskerne enorme mængder af tumorprøver, som på samme måde forberedes, normaliseres og behandles med henblik på beregningsmæssig analyse for at udvide vores forståelse af kræftgenetik. Den protokol, der er anført her, i kombination med værktøjer med åben adgang sænker adgangsbarriererne til disse komplekse data og tilbyder datamining i større dybde for at fremskynde oversættelsen af genomiske data til ny biologisk og klinisk indsigt.

Kræftgenomforskningsprojektet for gliom var et af de første projekter i TCGA, der leverede velstrukturerede data af tumorprøver fra flere platforme. Genomisk analyse af disse data identificerede klinisk relevante undertyper af glioblastom og afgrænsede tre forskellige molekylære klasser i lavgradsgliom, herunder klassen med IDH-mutationen . Portaler med åben adgang letter adgangen til disse datasæt, men er begrænsede i forbindelse med undersøgelse af specifikke grupper. Den protokol, der behandles i denne artikel, beskriver en enkel metode til at undersøge delmængder af prøver eller patienter med en specifik genetisk, biologisk eller klinisk interesse, f.eks. tumorprøver med IDH-mutation. For det andet beskriver protokollen, hvordan man kan generere ekspressionsprofiler af gener, der er involveret i en bestemt vej eller proces, f.eks. metabolisme, i denne særlige delmængde af prøver. Dette gør det muligt at udvælge individuelle gener af interesse i stedet for at udforske alle gener og klassificerer hvert enkelt gen i hver prøve, der anvendes til analyse og visualisering. Endelig er der multidimensionel analyse til rådighed for at undersøge genekspression i forhold til DNA-methylering og proteinekspression.

Sammenlignet med andre tilgængelige værktøjer anvender denne protokol værktøjer med webgrænseflade, der ikke kræver yderligere software. Et kritisk skridt i protokollen er udvælgelsen af den korrekte kræftgenomforskningundersøgelse eller det korrekte kræftgenomforskningsprojekt, der indeholder de data af interesse. I øjeblikket gemmer mange portaler data fra datasæt fra litteraturen og TCGA-portalen. Som eksempel kan nævnes cBioPortal, der i øjeblikket indeholder 76 kræftgenomforskningsprojekter om genekspression (RNAseq og mikroarray) i kombination med 21 methylerings- og 41 proteinekspressionsprojekter. Validiteten af sammenligningen af genomdata afhænger af, hvor godt en prøve er matchet med referencen med hensyn til tekniske (f.eks. typen af databehandling) og biologiske (f.eks. molekylær subtype) bias. Derfor kræver anvendelse af portaler, der leverer genomdata fra velstrukturerede kræftgenomiske projekter, ingen avancerede normaliseringsteknikker og batchkorrektioner.

Sammenfattende giver vores metode mulighed for import og integration af en selektiv delmængde af prøver med specifik genomisk, biologisk eller klinisk interesse, f.eks. genomisk ændring, mutation, kræftsubtyper eller overlevelsesegenskaber. Denne metode indeholder et unikt koncept til at generere genekspressionsprofiler og til at krydskoble disse profiler med DNA-methylering og proteinekspression, som kan integreres for at teste forskningshypoteser i specifikke undertyper af kræft.

Fremtidsperspektiv

Kræftforskning har udviklet sig til en af de mest dataintensive discipliner i biologien. GENIE-projektet (Genomics Evidence Neoplasia Information Exchange) er et af de største fuldt offentlige kræftgenomdatasæt, der er frigivet til dato. Let håndterbare portaler som cBioPortal vil spille en stadig vigtigere rolle inden for dette område.

Author contributions

MK har designet og udført forskningen, RJM og CJFvN har overvåget undersøgelsen, MK og CJFvN har skrevet manuskriptet, alle forfattere læste og godkendte den endelige version af manuskriptet

Finansiel &oplysning om konkurrerende interesser

Denne forskning blev støttet af den hollandske kræftforening (KWF-bevillinger UVA 2014-6839 og AMC 2016.1-10460). Forfatterne har ingen andre relevante tilknytninger eller økonomisk involvering med nogen organisation eller enhed med en økonomisk interesse i eller økonomisk konflikt med emnet eller materialerne diskuteret i manuskriptet ud over dem, der er afsløret.

Ingen skriveassistance blev udnyttet i produktionen af dette manuskript.

  • 1. Hanahan D, Weinberg RA. Kræftens kendetegn. Cell 100(1), 57-70 (2000).Crossref, Medline, CAS, Google Scholar
  • 2. Chang JC, Wooten EC, Tsimelzon A et al. Gene expression profiling for the prediction of therapeutic response to docetaxel in patients with breast cancer. Lancet 362(9381), 362-369 (2003).Crossref, Medline, CAS, Google Scholar
  • 3. Byron SA, Van Keuren-Jensen KR, Engelthaler DM, Carpten JD, Craig DW. Omsætning af RNA-sekventering til klinisk diagnostik: muligheder og udfordringer. Nat. Rev. Genet. 17(5), 257-271 (2016). crossref, Medline, CAS, Google Scholar
  • 4. International Cancer Genome C, Hudson TJ, Anderson W et al. International network of cancer genome projects. Nature 464(7291), 993-998 (2010).Crossref, Medline, Google Scholar
  • 5. Chin L, Andersen JN, Futreal PA. Kræftgenomforskning: fra opdagelsesvidenskab til personlig tilpasset medicin. Nat. Med. 17(3), 297-303 (2011).Crossref, Medline, CAS, Google Scholar
  • 6. Weeraratna AT, Nagel JE, De Mello-Coelho V, Taub DD. Genekspressionsprofilering: fra mikroarrays til medicin. J. Clin. Immunol. 24(3), 213-224 (2004).Crossref, Medline, CAS, Google Scholar
  • 7. Johnson JM, Castle J, Garrett-Engele P et al. Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays. Science 302(5653), 2141-2144 (2003).Crossref, Medline, CAS, Google Scholar
  • 8. Trapnell C, Williams BA, Pertea G et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat. Biotechnol. 28(5), 511-515 (2010).Crossref, Medline, CAS, Google Scholar
  • 9. Gao J, Aksoy BA, Dogrusoz U et al. Integrativ analyse af kompleks kræftgenomforskning og kliniske profiler ved hjælp af cBioPortal. Sci. Signal 6(269), pl1 (2013). crossref, Medline, Google Scholar
  • 10. Cerami E, Gao J, Dogrusoz U et al. cBio cancer genomics portal: en åben platform til udforskning af flerdimensionale cancer genomics-data. Cancer Discov. 2(5), 401-404 (2012).Crossref, Medline, Google Scholar
  • 11. Parsons DW, Jones S, Zhang X et al. En integreret genomisk analyse af menneskelig glioblastoma multiforme. Science 321(5897), 1807-1812 (2008).Crossref, Medline, CAS, Google Scholar
  • 12. Balss J, Meyer J, Mueller W, Korshunov A, Hartmann C, Von Deimling A. Analyse af IDH1 codon 132-mutationen i hjernetumorer. Acta Neuropathol 116(6), 597-602 (2008).Crossref, Medline, CAS, Google Scholar
  • 13. Bleeker FE, Atai NA, Lamba S et al. Den prognostiske IDH1(R132)-mutation er forbundet med reduceret NADP+-afhængig IDH-aktivitet i glioblastom. Acta Neuropathol. 119(4), 487-494 (2010).Crossref, Medline, CAS, Google Scholar
  • 14. Khurshed M, Molenaar RJ, Lenting K, Leenders WP, Van Noorden CJF. In silico genekspressionsanalyse afslører glykolyse og acetatanaplerose i IDH1-wildtypegliom og laktat- og glutamatanaplerose i IDH1-muteret gliom. Oncotarget 8(30), 49165-49177 (2017). crossref, Medline, Google Scholar
  • 15. Khurshed M, Aarnoudse N, Hulsbos R et al. IDH1-mutant kræftceller er følsomme over for cisplatin, og en IDH1-mutant inhibitor modvirker denne følsomhed. FASEB J. 32, 6344-6352 (2018). crossref, Google Scholar
  • 16. Molenaar RJ, Radivoyevitch T, Nagata Y et al. IDH1/2-mutationer sensibiliserer akut myeloid leukæmi over for PARP-hæmning, og dette modvirkes af IDH1/2-mutanthæmmere. Clin. Cancer Res. 24(7), 1705-1715 (2018). crossref, Medline, CAS, Google Scholar
  • 17. Frederiks WM, Bosch KS, Bosch KS, De Jong JS, Van Noorden CJ. Posttranslationel regulering af glucose-6-fosfatdehydrogenaseaktivitet i (præ)neoplastiske læsioner i rottelever. J. Histochem. Cytochem. 51(1), 105-112 (2003).Crossref, Medline, CAS, Google Scholar
  • 18. Verhaak RG, Hoadley KA, Purdom E et al. Integreret genomisk analyse identificerer klinisk relevante undertyper af glioblastom, der er karakteriseret ved abnormiteter i PDGFRA, IDH1, EGFR og NF1. Cancer Cell 17(1), 98-110 (2010).Crossref, Medline, CAS, Google Scholar
  • 19. Cancer Genome Atlas Research N, Brat DJ, Verhaak RG et al. Comprehensive, integrative genomic analysis of diffuse lower-grade gliomas. N. Engl. J. Med. 372(26), 2481-2498 (2015).Crossref, Medline, Google Scholar