En enkel in silico-metod för att generera genuttrycksprofiler från delmängder av cancergenomdata

Under det senaste decenniet har framstegen inom genomtekniken gjort det möjligt att identifiera molekylära mekanismer för biologiska processer och sjukdomar, vilket påverkar alla områden inom klinisk forskning, särskilt cancer. Intratumoral heterogenitet, dynamiska förändringar i cancercellernas genom och genetiska avvikelser är unika fingeravtryck för varje typ av cancer . Dessa egenskaper hos cancer, i kombination med prognostiska klassificeringar av subtyper och riskstratifiering, har visat att genuttrycksprofilering gör det möjligt att bättre förstå den molekylära bakgrunden till t.ex. prognos och terapikänslighet vid cancer. Dessutom är genuttrycksprofilering en kraftfull molekylär metod för att förutsäga läkemedelskänslighet .

För att generera kataloger över genomiska förändringar i olika cancertyper utvecklas samordnade storskaliga cancergenomprojekt. De två viktigaste projekten är Cancer Genome Atlas (TCGA) och International Cancer Genome Consortium (ICGC) , som omfattar många centra som använder olika plattformar för att tillhandahålla information om cancergenomik, t.ex. genuttryck, DNA-mutationer, DNA-metylering, proteinuttryck och kliniska data. Dessa projekt tillhandahåller stora mängder genomiska data för att hjälpa forskare att generera eller testa nya hypoteser som i slutändan kan bidra till utvecklingen av nya cancerterapier, diagnostiska metoder och förebyggande strategier . Det är dock en utmaning att utforska, integrera och analysera de stora mängderna komplicerade data, särskilt för forskare som saknar bakgrund inom dataprogrammering eller informatik.

Den effektiva användningen av de stora mängderna cancergenomdata förblir en utmaning på grund av begränsningarna i beräkningsmetoderna och otillräcklig vägledning. Datavisualisering är till stor hjälp för effektiv dataanalys och avancerade verktyg har utvecklats för att underlätta datavisualisering, t.ex. portalerna med öppen tillgång cBioPortal, UCSC Cancer Browser och canEvolve (tabell 1). Portaler med öppen tillgång underlättar dock främst undersökningar av stora datamängder och är ibland begränsade när man utforskar datamängderna på djupet. Här beskriver vi en enkel men effektiv metod för att undersöka delmängder av prover eller patienter med ett specifikt genetiskt, biologiskt eller kliniskt intresse. Vi fokuserar på profilering av genuttryck och presenterar en metod för analys av genuttrycksdata i förhållande till DNA-metylering och proteinuttryck (tabell 2), som kan integreras för att testa forskningshypoteser för specifika typer av cancer.

Tabell 2. Översikt över olika cancergenomdata och typ för profilering.
Genomisk typ Data
Genuttryck RNA-seq
Tumör-RNA (mikroarray)
DNA-metylering Metylering (HM27)
Proteinuttryck Reverse-phase protein array (RPPA)

Material &metoder

Protokoll för in silico genuttrycksprofilering

Genuttrycksprofilering är en kraftfull teknik för att studera biologiska processer på molekylnivå. Genaktivitet, eller uttryck, kan bedömas genom proteinidentifiering, men genuttryck undersöks vanligen genom att undersöka RNA-meddelandet eller transkriptet. Två höggenomströmningsmetoder som vanligen används för omfattande genuttrycksprofilering är RNA-sekvensering med nästa generations sekvensering (NGS) och DNA-mikroarrays .

I allmänna termer finns det två typer av genuttrycksmetoder inom cancer: den differentiella och den relativa analysen. I den differentiella metoden belyses tumörexpressionsprofiler i förhållande till patientmatchade eller omatchade normala vävnadsprover, medan den relativa metoden jämför transkriptnivåer mellan olika tumörtyper eller cell- och vävnadsprover. Beroende på det specifika tillvägagångssättet kan genuttrycksprofilering av prover och prover ge insikter inte bara i biologi utan också ge detaljer om struktur, förändringar och variationer av transkript . Många portaler med öppen tillgång underlättar verktyg för utforskning av genuttrycksdata. Vårt protokoll illustreras med det verktyg som tillhandahålls av cBioPortal . Andra portaler med öppen tillgång, t.ex. UCSC Cancer Browser och canEvolve, kan också användas för att utforska genomiska data. Vi tillhandahåller ett steg-för-steg-protokoll i nästa kapitel (Supplemental Protocol):

Översikt och val av cancerdataset av intresse (cBioPortal);

Skapande av falluppsättningar/deluppsättningar av intresse i en enda studie;

Integrativ analys av gener i en enda studie. Efter att ha definierat den intressanta cancerstudien i avsnitt 1 och skapat undergrupper av prover/patienter med kliniska eller genetiska data av intresse i avsnitt 2. Detta avsnitt klassificerar varje gen i varje prov och används för all analys och visualisering av genomiska data;

Samling av data om genuttryck och proteinuttryck;

Insamling av metyleringsdata;

Korrelationsanalys. För att undersöka korrelationen mellan genuttryck och antingen metyleringsstatus eller proteinnivå tillhandahåller detta avsnitt ett verktyg för att plotta sambandet;

Grafisk visualisering och statistisk analys. Visualisering och analys av falluppsättningar av data om mRNA-uttryck, metylering eller proteinuttryck som samlats in i avsnitt 5, eller data från korrelationsanalysen i avsnitt 6.

Resultat &diskussion

Representativa resultat

Mutationer i IDH1-genen är ancestrala händelser vid bildandet av låggradigt gliom och sekundärt glioblastom . Förekomsten av en IDH1-mutation (IDH1MUT) är förknippad med förlängd överlevnad hos gliompatienter jämfört med patienter med IDH1 vildtyp (IDH1WT) . Med hjälp av möjligheterna till kliniska resultat i cBioPortal illustreras överlevnaden i en diagram över den totala överlevnaden med ungefär sex gånger längre överlevnad för IDH1MUT-gliompatienter jämfört med IDH1WT-gliompatienter (figur 1).

Figur 1. Representativ analys av övergripande överlevnadskurvor som jämför IDH1MUT- och IDH1WT-gliompatienter i TCGA-databasen.

För analysen analyserades den sammanslagna kohorten av låggradig gliom och glioblastoma multiforme-studien (TCGA, Cell 2016), som omfattade 411 IDH1MUT- jämfört med 401 IDH1WT-gliompatienter. Total överlevnad Kaplan-Meier-plott visar ungefär sex gånger längre överlevnad för IDH1MUT-gliompatienter (röd) jämfört med IDH1WT-gliompatienter (blå).

IDH1MUT inducerar en metabolisk omkoppling som inte är helt förstådd, men utforskning av skillnader i uttrycksnivåerna för metaboliska enzymer är en lovande undersökningsmetod. Effekterna av IDH1MUT på uttrycket av gener som kodar för metaboliska enzymer ger en möjlighet att demonstrera möjligheterna med cBioPortal för att utföra dataintegration, utforskning och analys. TCGA erbjuder data från 112 IDH1WT- jämfört med 399 IDH1MUT-prover av låggradig gliom (LGG) och 157 IDH1WT- jämfört med nio IDH1MUT-prover av glioblastom för att undersöka och integrera för analys.

I glukosmetabolismen valdes gener som kodar för hastighetsbegränsande metaboliska enzymer: GLUT1/3, HK1, HK2, HK3, PKLR, PKM2, LDHA och LDHB. I IDH1WT jämfört med IDH1MUT LGG- och glioblastompatientprover observerades högre nivåer av genuttryck för GLUT3, HK2, PKM2 och LDHA (figur 2), vilket tyder på att IDH1WT-gliom är mer beroende av glykolys för ATP-produktion än IDH1MUT-gliom.

Figur 2. Representativ analys av mRNA-uttrycksnivåer för enzymer som är involverade i glukosmetabolismen i IDH1WT- respektive IDH1MUT-gliom.

Analys av IDH1WT (n = 112) och IDH1MUT (n = 399) låggradig gliom och IDH1WT (n = 157) och IDH1MUT (n = 9) glioblastomprover, erhållna från cBioPortal med hjälp av TCGA-datasetterna Brain Lower Grade Glioma (preliminärt) och Glioblastoma Multiforme (preliminärt). Sammanslagna data för relativa mRNA-uttrycksnivåer visas för IDH1WT (blått) och IDH1MUT (rött).

***p < 0,001; ****p < 0,0001.

G6PD: Glukos-6-fosfatdehydrogenas; GLUT: Glukostransportör; HK: Hexokinas; LDH: Laktatdehydrogenas; PK: Pyruvatkinas.

Då mutationer i IDH1/2 också förekommer hos 20 % av patienterna med myeloiska neoplasmer, inklusive AML, presenteras ett exempel på analys av mRNA-uttryck av de tre grupperna, IDHWT, IDH1MUT och IDH2MUT, i figur 3. Studien av akut myeloisk leukemi (AML; TCGA, Provisional) erbjuder 136 IDHWT-, 16 IDH1MUT- och 16 IDH2MUT-AML-prover för att undersöka genuttrycksprofiler. I figur 3 visas mRNA-uttrycksnivåer av ATM-genen, ett DNA-skadereaktionsprotein , i IDHWT-, IDH1MUT- och IDH2MUT AML-prover som visar att ATM mRNA-uttrycket är kraftigt minskat i IDH1MUT AML.

Figur 3. Representativ analys av mRNA-uttrycksnivåer för ATM-genen i IDHWT-, IDH1MUT- och IDH2MUT-prover av akut myeloisk leukemi.

Analys av IDHWT-prover (n = 138), IDH1MUT-prover (n = 16) och IDH2MUT-prover (n = 16) av akut myeloisk leukemi, hämtade från cBioPortal med hjälp av TCGA-datasetterna Acute Myeloid Leukemia (provisional). Data för relativa mRNA-uttrycksnivåer visas för IDHWT (blått), IDH1MUT (rött) och IDH2MUT (grönt).

**p < 0,01.

Ett annat exempel illustreras i figur 4, som är en plott av genuttryck kontra DNA-metylering av LDHA-genen i LGG. Lägre uttrycksnivåer av LDHA som observerades i IDH1MUT-gliom var associerade med hypermetylering av dess promotor (figur 4A), men lägre uttrycksnivåer av LDHB-genen i IDH1WT korrelerade inte med metylering (figur 4B).

Figur 4. Representativ analys av korrelationen mellan mRNA-uttryck och metylering.

Plott av korrelation av genuttryck och DNA-metylering av (A)LDHA-genen och (B)LDHB-genen i låggradig gliom (Brain Lower Grade Glioma, preliminärt) enligt IDH1MUT-status (blått: IDH1WT, rött: IDH1MUT).

För att undersöka om genuttrycksnivåer korrelerar med proteinöverflödet visas ett illustrerande exempel i figur 5. I IDH1MUT-gliom observerades lägre genuttrycksnivåer av G6PD jämfört med IDH1WT-gliom (figur 5A), medan proteinnivåerna av G6PD var lika stora i IDH1MUT och IDH1WT LGG (figur 5B), vilket tyder på att ytterligare posttranslationella mekanismer är verksamma .

Figur 5. Representativ analys av korrelationen mellan mRNA-uttryck och proteinabundans.

(A) Analys av genuttrycksnivåer av G6PD i låggradig gliom (LGG) i korrelation med (B) proteinabundans av G6PD enligt IDH1MUT-status (blå: IDH1WT, röd: IDH1MUT). (C) Plot av korrelationen mellan genuttryck och proteinabundans.

****p < 0,0001.

LGG: Låggradigt gliom; ns: Inte signifikant.

Konstanta innovationer har i hög grad bidragit till att öka vår förståelse av cancer, men har också omvandlat cancerforskningen till ett av de mest dataintensiva områdena inom biologin. Välstrukturerade och organiserade cancergenomikprojekt erbjuder forskarna enorma mängder tumörprover som på liknande sätt förbereds, normaliseras och bearbetas för beräkningsanalys för att utvidga vår förståelse av cancergenetik. Det protokoll som anges här i kombination med verktyg med öppen tillgång sänker barriärerna för tillgång till dessa komplexa data och erbjuder datautvinning på djupet för att påskynda översättningen av genomiska data till nya biologiska och kliniska insikter.

Cancergenomikprojektet för gliom var ett av de första projekten inom TCGA som tillhandahöll välstrukturerade data om tumörprover från flera olika plattformar. Genomisk analys av dessa data identifierade kliniskt relevanta subtyper av glioblastom och avgränsade tre olika molekylära klasser i låggradig gliom, inklusive klassen med IDH-mutation . Portaler med öppen tillgång underlättar tillgången till dessa datamängder men är begränsade när det gäller att undersöka specifika grupper. Det protokoll som behandlas i denna artikel beskriver en enkel metod för att undersöka delmängder av prover eller patienter med ett specifikt genetiskt, biologiskt eller kliniskt intresse, t.ex. tumörprover med IDH-mutation. För det andra beskrivs i protokollet hur man genererar uttrycksprofiler av gener som är involverade i en viss väg eller process, t.ex. metabolism, i denna särskilda undergrupp av prover. Detta gör det möjligt att välja enskilda gener av intresse i stället för att utforska alla gener, och klassificerar varje gen i varje prov som används för analys och visualisering. Slutligen tillhandahålls multidimensionell analys för att undersöka genuttryck i förhållande till DNA-metylering och proteinuttryck.

Som jämförelse med andra tillgängliga verktyg använder detta protokoll webbgränssnittsverktyg som inte kräver ytterligare programvara. Ett kritiskt steg i protokollet är att välja rätt cancergenomikstudie eller projekt som innehåller de data som är av intresse. För närvarande lagrar många portaler data från dataset från litteraturen och TCGA-portalen. Som exempel kan nämnas att cBioPortal för närvarande tillhandahåller 76 cancergenomikprojekt för genuttryck (RNAseq och mikroarray) i kombination med 21 metyleringsprojekt och 41 proteinuttrycksprojekt. Validiteten i jämförelsen av genomikdata är beroende av hur väl ett prov matchas med referensen när det gäller tekniska (t.ex. typ av databehandling) och biologiska (t.ex. molekylär subtyp) bias. Därför kräver användning av portaler som tillhandahåller genomikdata från välstrukturerade cancergenomprojekt inga avancerade normaliseringstekniker och batchkorrigeringar.

Sammanfattningsvis gör vår metod det möjligt att importera och integrera en selektiv delmängd av prover med specifikt genomiskt, biologiskt eller kliniskt intresse, t.ex. genomiska förändringar, mutationer, cancersubtyper eller överlevnadsegenskaper. Metoden innehåller ett unikt koncept för att generera genuttrycksprofiler och för att korslänka dessa profiler med DNA-metylering och proteinuttryck, vilket kan integreras för att testa forskningshypoteser i specifika subtyper av cancer.

Framtidsperspektiv

Cancerforskning har utvecklats till en av de mest dataintensiva disciplinerna inom biologin. GENIE-projektet (Genomics Evidence Neoplasia Information Exchange) är ett av de största helt offentliga datamängderna om cancergenomik som hittills släppts. Lätthanterliga portaler, som cBioPortal, kommer att spela en allt viktigare roll inom denna disciplin.

Författarnas bidrag

MK utformade och utförde forskningen, RJM och CJFvN övervakade studien, MK och CJFvN skrev manuskriptet, Alla författare läste och godkände den slutliga versionen av manuskriptet

Finansiella &konkurrerande intressen

Denna forskning stöddes av det nederländska cancerförbundet (KWF-bidrag UVA 2014-6839 och AMC 2016.1-10460). Författarna har inga andra relevanta anknytningar eller ekonomiska engagemang med någon organisation eller enhet med ett ekonomiskt intresse i eller ekonomisk konflikt med ämnet eller materialet som diskuteras i manuskriptet förutom de som avslöjats.

Ingen skrivhjälp utnyttjades i produktionen av detta manuskript.

  • 1. Hanahan D, Weinberg RA. Cancerens kännetecken. Cell 100(1), 57-70 (2000).Crossref, Medline, CAS, Google Scholar
  • 2. Chang JC, Wooten EC, Tsimelzon A et al. Gene expression profiling for the prediction of therapeutic response to docetaxel in patients with breast cancer. Lancet 362(9381), 362-369 (2003).Crossref, Medline, CAS, Google Scholar
  • 3. Byron SA, Van Keuren-Jensen KR, Engelthaler DM, Carpten JD, Craig DW. Översättning av RNA-sekvensering till klinisk diagnostik: möjligheter och utmaningar. Nat. Rev. Genet. 17(5), 257-271 (2016).Crossref, Medline, CAS, Google Scholar
  • 4. International Cancer Genome C, Hudson TJ, Anderson W et al. International network of cancer genome projects. Nature 464(7291), 993-998 (2010).Crossref, Medline, Google Scholar
  • 5. Chin L, Andersen JN, Futreal PA. Cancergenomik: från vetenskaplig upptäckt till personlig medicin. Nat. Med. 17(3), 297-303 (2011).Crossref, Medline, CAS, Google Scholar
  • 6. Weeraratna AT, Nagel JE, De Mello-Coelho V, Taub DD. Genexpressionsprofilering: från mikroarrayer till medicin. J. Clin. Immunol. 24(3), 213-224 (2004).Crossref, Medline, CAS, Google Scholar
  • 7. Johnson JM, Castle J, Garrett-Engele P et al. Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays. Science 302(5653), 2141-2144 (2003).Crossref, Medline, CAS, Google Scholar
  • 8. Trapnell C, Williams BA, Pertea G et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat. Biotechnol. 28(5), 511-515 (2010).Crossref, Medline, CAS, Google Scholar
  • 9. Gao J, Aksoy BA, Dogrusoz U et al. Integrativ analys av komplex cancergenomik och kliniska profiler med hjälp av cBioPortal. Sci. Signal 6(269), pl1 (2013).Crossref, Medline, Google Scholar
  • 10. Cerami E, Gao J, Dogrusoz U et al. cBio cancer genomics portal: en öppen plattform för utforskning av multidimensionella cancergenomdata. Cancer Discov. 2(5), 401-404 (2012).Crossref, Medline, Google Scholar
  • 11. Parsons DW, Jones S, Zhang X et al. An integrated genomic analysis of human glioblastoma multiforme. Science 321(5897), 1807-1812 (2008).Crossref, Medline, CAS, Google Scholar
  • 12. Balss J, Meyer J, Mueller W, Korshunov A, Hartmann C, Von Deimling A. Analys av IDH1-mutationen kodon 132 i hjärntumörer. Acta Neuropathol 116(6), 597-602 (2008).Crossref, Medline, CAS, Google Scholar
  • 13. Bleeker FE, Atai NA, Lamba S et al. Den prognostiska IDH1(R132)-mutationen är förknippad med minskad NADP+-beroende IDH-aktivitet i glioblastom. Acta Neuropathol. 119(4), 487-494 (2010).Crossref, Medline, CAS, Google Scholar
  • 14. Khurshed M, Molenaar RJ, Lenting K, Leenders WP, Van Noorden CJF. In silico genuttrycksanalys avslöjar glykolys och acetatanapleros i IDH1-gliom av vildtyp och laktat- och glutamatanapleros i IDH1-muterade gliom. Oncotarget 8(30), 49165-49177 (2017).Crossref, Medline, Google Scholar
  • 15. Khurshed M, Aarnoudse N, Hulsbos R et al. IDH1-muterade cancerceller är känsliga för cisplatin och en IDH1-muterad hämmare motverkar denna känslighet. FASEB J. 32, 6344-6352 (2018).Crossref, Google Scholar
  • 16. Molenaar RJ, Radivoyevitch T, Nagata Y et al. IDH1/2-mutationer sensibiliserar akut myeloisk leukemi för PARP-hämning och detta motverkas av IDH1/2-mutanthämmare. Clin. Cancer Res. 24(7), 1705-1715 (2018).Crossref, Medline, CAS, Google Scholar
  • 17. Frederiks WM, Bosch KS, De Jong JS, Van Noorden CJ. Posttranslationell reglering av glukos-6-fosfatdehydrogenasaktivitet i (pre)neoplastiska lesioner i råttlever. J. Histochem. Cytochem. 51(1), 105-112 (2003).Crossref, Medline, CAS, Google Scholar
  • 18. Verhaak RG, Hoadley KA, Purdom E et al. Integrerad genomisk analys identifierar kliniskt relevanta undertyper av glioblastom som kännetecknas av avvikelser i PDGFRA, IDH1, EGFR och NF1. Cancer Cell 17(1), 98-110 (2010).Crossref, Medline, CAS, Google Scholar
  • 19. Cancer Genome Atlas Research N, Brat DJ, Verhaak RG et al. Comprehensive, integrative genomic analysis of diffuse lower-grade gliomas. N. Engl. J. Med. 372(26), 2481-2498 (2015).Crossref, Medline, Google Scholar

.