Jednoduchý in silico přístup k vytváření profilů genové exprese z podskupin genomických dat o rakovině

V posledním desetiletí umožnil pokrok v genomových technologiích identifikaci molekulárních mechanismů biologických procesů a onemocnění, což má dopad na všechny oblasti klinického výzkumu, zejména na rakovinu. Intratumorální heterogenita, dynamické změny v genomu nádorových buněk a genetické aberace jsou jedinečnými otisky prstů pro každý typ rakoviny . Tyto rysy rakoviny v kombinaci s prognostickou klasifikací podtypů a stratifikací rizika ukázaly, že profilování genové exprese umožňuje lépe pochopit molekulární pozadí například prognózy a citlivosti na terapii u rakoviny. Kromě toho je profilování genové exprese účinným molekulárním přístupem k předvídání citlivosti na léky .

S cílem vytvořit katalogy genomických změn u různých typů rakoviny se rozvíjejí koordinované rozsáhlé projekty genomiky rakoviny. Dva hlavní projekty jsou Cancer Genome Atlas (TCGA) a International Cancer Genome Consortium (ICGC) , zahrnující mnoho center využívajících různé platformy k poskytování informací z oblasti genomiky rakoviny, jako je genová exprese, mutace DNA, metylace DNA, exprese proteinů a klinické údaje. Tyto projekty poskytují velké množství genomických údajů, které pomáhají výzkumným pracovníkům při vytváření nebo testování nových hypotéz, jež mohou v konečném důsledku pomoci při vývoji nových způsobů léčby rakoviny, diagnostických metod a preventivních strategií . Zkoumání, integrace a analýza velkého množství komplikovaných dat je však náročná, zejména pro vědce, kteří nemají zázemí ve výpočetním programování nebo informatice.

Efektivní využití velkého množství dat o nádorových genomech zůstává výzvou kvůli omezením výpočetních metodik a nedostatečným pokynům. Vizualizace dat je pro efektivní analýzu dat velmi užitečná a byly vyvinuty pokročilé nástroje, které vizualizaci dat usnadňují, například volně přístupné portály cBioPortal, UCSC Cancer Browser a canEvolve (tabulka 1). Portály s otevřeným přístupem však usnadňují především zkoumání velkých souborů dat a někdy jsou omezené při jejich hlubším zkoumání. Zde popisujeme jednoduchou, ale účinnou metodu pro zkoumání podskupin vzorků nebo pacientů se specifickým genetickým, biologickým nebo klinickým zájmem. Zaměřujeme se na profilování genové exprese a představujeme metodu pro analýzu údajů o genové expresi ve vztahu k metylaci DNA a expresi proteinů (tabulka 2), kterou lze integrovat k testování výzkumných hypotéz pro specifické typy rakoviny.

Tabulka 2. Přehled různých genomických dat pro rakovinu a typ pro profilování.
Typ genomu Data
Genová exprese RNA-.seq
Nádorová RNA (microarray)
Metylace DNA Metylace (HM27)
Proteinová exprese Reverzní-phase protein array (RPPA)

Materiály & metody

Protokol pro in silico profilování genové exprese

Profilování genové exprese je výkonná technika pro studium biologických procesů na molekulární úrovni. Aktivitu nebo expresi genů lze hodnotit pomocí identifikace proteinů, ale exprese genů se obvykle zkoumá pomocí zkoumání zprávy nebo transkriptu RNA. Dvě vysoce výkonné metody, které se běžně používají pro komplexní profilování genové exprese, jsou sekvenování RNA pomocí sekvenování nové generace (NGS) a DNA mikročipy .

V obecné rovině existují dva typy přístupů ke genové expresi u nádorových onemocnění: diferenciální a relativní analýza. Při diferenciálním přístupu se objasňují profily nádorové exprese vzhledem ke srovnatelným nebo nesrovnatelným vzorkům normální tkáně, zatímco relativní přístup porovnává hladiny transkriptů napříč typy nádorů nebo vzorky buněk a tkání. V závislosti na konkrétním přístupu může profilování genové exprese vzorků a vzorků poskytnout poznatky nejen o biologii, ale také podrobnosti o struktuře, změnách a variacích transkriptů . Mnoho portálů s otevřeným přístupem usnadňuje nástroje pro zkoumání dat o genové expresi. Náš protokol je ilustrován nástrojem, který poskytuje cBioPortal . Pro zkoumání genomických dat lze podobně použít i další portály s otevřeným přístupem, jako je UCSC Cancer Browser a canEvolve. V dalších kapitolách uvádíme protokol krok za krokem (Supplemental Protocol):

Přehled a výběr souboru dat o rakovině, který je předmětem zájmu (cBioPortal);

Vytvoření souborů případů/podsouborů zájmu v rámci jedné studie;

Integrativní analýza genů v rámci jedné studie. Po definování zájmové studie rakoviny v oddíle 1 a vytvoření podskupin vzorků/pacientů s klinickými nebo genetickými údaji, které jsou předmětem zájmu, v oddíle 2. Tento oddíl klasifikuje každý gen v každém vzorku a používá se pro veškerou analýzu a vizualizaci genomických dat;

Sběr dat o expresi genů a proteinů;

Sběr metylačních dat;

Korelační analýza. Za účelem zkoumání korelace mezi expresí genu a buď metylačním stavem, nebo hladinou proteinu poskytuje tato část nástroj pro vykreslení vztahu;

Grafická vizualizace a statistická analýza. Vizualizace a analýza případových souborů dat exprese mRNA, metylace nebo exprese proteinů shromážděných v oddíle 5 nebo dat korelační analýzy oddílu 6.

Výsledky & diskuse

Reprezentativní výsledky

Mutace v genu IDH1 jsou ancestrální událostí při vzniku gliomu nízkého stupně a sekundárního glioblastomu . Přítomnost mutace IDH1 (IDH1MUT) je spojena s prodlouženým přežitím pacientů s gliomem ve srovnání s pacienty s divokým typem IDH1 (IDH1WT) . S využitím možností klinických výsledků portálu cBioPortal je přežití znázorněno v grafu celkového přežití s přibližně šestinásobným prodloužením přežití pacientů s gliomem IDH1MUT ve srovnání s pacienty s gliomem IDH1WT (obrázek 1).

Obrázek 1. Reprezentativní analýza křivek celkového přežití porovnávajících pacienty s gliomy IDH1MUT a IDH1WT v databázi TCGA.

Pro analýzu byla analyzována sloučená kohorta pacientů s gliomy nízkého stupně a multiformním glioblastomem (studie TCGA, Cell 2016), která zahrnovala 411 pacientů s gliomy IDH1MUT oproti 401 pacientům s gliomy IDH1WT. Kaplanův-Meierův graf celkového přežití ukazuje přibližně šestinásobné prodloužení přežití pacientů s gliomem IDH1MUT (červeně) ve srovnání s pacienty s gliomem IDH1WT (modře).

IDH1MUT vyvolává metabolické změny, které nejsou zcela pochopeny, ale zkoumání rozdílů v hladinách exprese metabolických enzymů je slibným výzkumným přístupem. Vliv IDH1MUT na expresi genů, které kódují metabolické enzymy, nabízí příležitost demonstrovat možnosti portálu cBioPortal k provádění integrace, průzkumu a analýzy dat. TCGA nabízí ke zkoumání a integraci pro analýzu data 112 vzorků IDH1WT versus 399 vzorků IDH1MUT gliomů nízkého stupně (LGG) a 157 vzorků IDH1WT versus devět vzorků IDH1MUT glioblastomů.

V oblasti metabolismu glukózy byly vybrány geny, které kódují metabolické enzymy omezující rychlost: GLUT1/3, HK1, HK2, HK3, PKLR, PKM2, LDHA a LDHB. Ve vzorcích IDH1WT versus IDH1MUT LGG a pacientů s glioblastomem byly pozorovány vyšší úrovně genové exprese pro GLUT3, HK2, PKM2 a LDHA (obr. 2), což naznačuje, že IDH1WT gliomy jsou při produkci ATP více závislé na glykolýze než IDH1MUT gliomy.

Obr. 2. V případě IDH1WT a IDH1MUT pacientů s glioblastomem byly pozorovány vyšší úrovně genové exprese pro GLUT3, HK2, PKM2 a LDHA. Reprezentativní analýza hladin exprese mRNA enzymů zapojených do metabolismu glukózy u gliomu IDH1WT versus IDH1MUT.

Analýza vzorků IDH1WT (n = 112) a IDH1MUT (n = 399) gliomů nižšího stupně a IDH1WT (n = 157) a IDH1MUT (n = 9) glioblastomů, získaných z portálu cBioPortal pomocí souborů dat TCGA Brain Lower Grade Glioma (prozatímní) a Glioblastoma Multiforme (prozatímní). Sloučené údaje o relativních hladinách exprese mRNA jsou zobrazeny pro IDH1WT (modře) a IDH1MUT (červeně).

***p < 0,001; ****p < 0,0001.

G6PD: Glukóza-6-fosfát dehydrogenáza; GLUT: Glukózový transportér; HK: Hexokináza; LDH: Laktátdehydrogenáza; PK: Pyruvátkináza.

Jelikož se mutace v IDH1/2 vyskytují také u 20 % pacientů s myeloidními nádory včetně AML, je na obrázku 3 uveden příklad analýzy exprese mRNA tří skupin, IDHWT, IDH1MUT a IDH2MUT. Studie akutní myeloidní leukemie (AML; TCGA, Provisional) nabízí 136 IDHWT, 16 IDH1MUT a 16 IDH2MUT vzorků AML ke zkoumání profilů genové exprese. Na obrázku 3 jsou uvedeny hladiny exprese mRNA genu ATM, proteinu reagujícího na poškození DNA , ve vzorcích AML IDHWT, IDH1MUT a IDH2MUT, což ukazuje, že exprese mRNA ATM je u AML IDH1MUT výrazně snížena.

Obrázek 3. Reprezentativní analýza hladin exprese mRNA genu ATM ve vzorcích akutní myeloidní leukemie IDHWT, IDH1MUT a IDH2MUT.

Analýza vzorků akutní myeloidní leukemie IDHWT (n = 138), IDH1MUT (n = 16) a IDH2MUT (n = 16), získaných z portálu cBioPortal pomocí datových sad TCGA Acute Myeloid Leukemia (provisional). Údaje o relativních hladinách exprese mRNA jsou zobrazeny pro IDHWT (modře), IDH1MUT (červeně) a IDH2MUT (zeleně).

**p < 0,01.

Další příklad ilustruje obrázek 4, na kterém je graf exprese genu v závislosti na metylaci DNA genu LDHA v LGG. Nižší hladiny exprese genu LDHA pozorované u gliomu IDH1MUT souvisely s hypermetylací jeho promotoru (obrázek 4A), ale nižší hladiny exprese genu LDHB u IDH1WT s metylací nekorelovaly (obrázek 4B).

Obrázek 4. Reprezentativní analýza korelace mezi expresí mRNA a metylací.

Kartogram korelace exprese genu a metylace DNA (A)genu LDHA a (B)genu LDHB u gliomu nízkého stupně (Brain Lower Grade Glioma, provisional) podle stavu IDH1MUT (modrá: IDH1WT, červená: IDH1MUT).

Pro zkoumání, zda hladiny exprese genů korelují s množstvím proteinů, je na obrázku 5 uveden názorný příklad. U gliomu IDH1MUT byly pozorovány nižší hladiny genové exprese G6PD ve srovnání s gliomem IDH1WT (obrázek 5A), zatímco hladiny proteinu G6PD byly u IDH1MUT a IDH1WT LGG stejné (obrázek 5B), což naznačuje působení dalších posttranslačních mechanismů .

Obrázek 5. Reprezentativní analýza korelace mezi expresí mRNA a množstvím proteinu.

(A) Analýza hladin exprese genu G6PD v gliomu nízkého stupně (LGG) v korelaci s (B) množstvím proteinu G6PD podle stavu IDH1MUT (modrá: IDH1WT, červená: IDH1MUT). (C) Graf korelace genové exprese a množství proteinu.

****p < 0,0001.

LGG: Low-grade gliom; ns: Nevýznamné.

Neustálé inovace výrazně napomohly rozšíření našich znalostí o rakovině, ale také proměnily výzkum rakoviny v jednu z nejnáročnějších oblastí biologie na data. Dobře strukturované a organizované projekty nádorové genomiky nabízejí výzkumným pracovníkům obrovské množství vzorků nádorů, které jsou podobným způsobem připravovány, normalizovány a zpracovávány pro výpočetní analýzu s cílem rozšířit naše chápání genetiky rakoviny. Protokol, který je zde uveden, v kombinaci s nástroji s otevřeným přístupem snižuje bariéry přístupu k těmto komplexním datům a nabízí dolování dat do větší hloubky, aby se urychlil převod genomických dat do nových biologických a klinických poznatků.

Projekt nádorové genomiky gliomu byl jedním z prvních projektů TCGA, který poskytl dobře strukturovaná data nádorových vzorků z více platforem. Genomická analýza těchto dat identifikovala klinicky relevantní podtypy glioblastomu a vymezila tři různé molekulární třídy u gliomů nízkého stupně, včetně třídy s mutací IDH . Portály s otevřeným přístupem usnadňují přístup k těmto souborům dat, ale jsou omezené při zkoumání specifických skupin. Protokol, kterým se zabývá tento článek, popisuje jednoduchou metodu zkoumání podskupin vzorků nebo pacientů se specifickým genetickým, biologickým nebo klinickým zájmem, jako jsou vzorky nádorů s mutací IDH. Za druhé protokol popisuje, jak v této konkrétní podskupině vzorků vytvořit expresní profily genů zapojených do určité dráhy nebo procesu, jako je metabolismus. To umožňuje výběr jednotlivých genů zájmu namísto zkoumání všech genů a klasifikuje každý gen v každém vzorku, který je použit pro analýzu a vizualizaci. Nakonec je k dispozici vícerozměrná analýza, která umožňuje zkoumat expresi genů ve vztahu k metylaci DNA a expresi proteinů.

V porovnání s jinými dostupnými nástroji využívá tento protokol nástroje webového rozhraní, které nevyžadují další software. Kritickým krokem protokolu je výběr správné studie nebo projektu nádorové genomiky, který obsahuje údaje, jež jsou předmětem zájmu. V současné době mnoho portálů uchovává data ze souborů dat z literatury a portálu TCGA. Jako příklad lze uvést portál cBioPortal, který v současné době poskytuje 76 projektů nádorové genomiky genové exprese (RNAseq a microarray) v kombinaci s 21 projekty metylace a 41 projekty exprese proteinů. Validita porovnání genomických dat závisí na tom, jak dobře je vzorek přizpůsoben referenci z hlediska technických (např. typ zpracování dat) a biologických (např. molekulární podtyp) zkreslení. Proto použití portálů, které poskytují genomická data z dobře strukturovaných onkologických genomických projektů, nevyžaduje žádné pokročilé normalizační techniky a dávkové korekce.

V souhrnu naše metoda umožňuje import a integraci selektivní podskupiny vzorků se specifickým genomickým, biologickým nebo klinickým zájmem, jako jsou genomické změny, mutace, podtypy nádorů nebo vlastnosti přežití. Tato metoda obsahuje jedinečnou koncepci generování profilů genové exprese a propojení těchto profilů s metylací DNA a expresí proteinů, které lze integrovat k testování výzkumných hypotéz u specifických podtypů rakoviny.

Perspektiva do budoucna

Výzkum rakoviny se vyvinul v jednu z nejnáročnějších disciplín biologie na data. Projekt GENIE (Genomics Evidence Neoplasia Information Exchange) patří k dosud největším plně veřejným souborům genomických dat o rakovině. Snadno spravovatelné portály, jako je cBioPortal, budou v této disciplíně hrát stále zásadnější roli.

Příspěvky autorů

MK navrhl a provedl výzkum, RJM a CJFvN dohlíželi na studii, MK a CJFvN napsali rukopis, všichni autoři přečetli a schválili konečnou verzi rukopisu

Zveřejnění finančních &konkurujících zájmů

Tento výzkum byl podpořen Nizozemskou onkologickou společností (granty KWF UVA 2014-6839 a AMC 2016.1-10460). Autoři nemají žádnou jinou relevantní afiliaci nebo finanční účast v žádné organizaci nebo subjektu s finančním zájmem nebo finančním konfliktem s předmětem nebo materiály diskutovanými v rukopise kromě těch, které byly zveřejněny.

Při tvorbě tohoto rukopisu nebyla využita žádná pomoc při psaní.

  • 1. Hanahan D, Weinberg RA. Charakteristické znaky rakoviny. Cell 100(1), 57-70 (2000). crossref, Medline, CAS, Google Scholar
  • 2. Chang JC, Wooten EC, Tsimelzon A et al. Gene expression profiling for the prediction of therapeutic response to docetaxel in patients with breast cancer. Lancet 362(9381), 362-369 (2003). crossref, Medline, CAS, Google Scholar
  • 3. Byron SA, Van Keuren-Jensen KR, Engelthaler DM, Carpten JD, Craig DW. Translace sekvenování RNA do klinické diagnostiky: příležitosti a výzvy. Nat. Rev. Genet. 17(5), 257-271 (2016). crossref, Medline, CAS, Google Scholar
  • 4. International Cancer Genome C, Hudson TJ, Anderson W et al. International network of cancer genome projects. Nature 464(7291), 993-998 (2010).Crossref, Medline, Google Scholar
  • 5. Chin L, Andersen JN, Futreal PA. Cancer genomics: from discovery science to personalized medicine (Genomika rakoviny: od vědeckých objevů k personalizované medicíně). Nat. Med. 17(3), 297-303 (2011). crossref, Medline, CAS, Google Scholar
  • 6. Weeraratna AT, Nagel JE, De Mello-Coelho V, Taub DD. Profilování genové exprese: od mikročipů k medicíně. J. Clin. Immunol. 24(3), 213-224 (2004). crossref, Medline, CAS, Google Scholar
  • 7. Johnson JM, Castle J, Garrett-Engele P et al. Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays. Science 302(5653), 2141-2144 (2003). crossref, Medline, CAS, Google Scholar
  • 8. Trapnell C, Williams BA, Pertea G et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat. Biotechnol. 28(5), 511-515 (2010).Crossref, Medline, CAS, Google Scholar
  • 9. Gao J, Aksoy BA, Dogrusoz U et al. Integrative analysis of complex cancer genomics and clinical profiles using the cBioPortal. Sci. Signal 6(269), pl1 (2013).Crossref, Medline, Google Scholar
  • 10. Cerami E, Gao J, Dogrusoz U et al. The cBio cancer genomics portal: an open platform for exploring multidimensional cancer genomics data. Cancer Discov. 2(5), 401-404 (2012). crossref, Medline, Google Scholar
  • 11. Parsons DW, Jones S, Zhang X et al. An integrated genomic analysis of human glioblastoma multiforme. Science 321(5897), 1807-1812 (2008).Crossref, Medline, CAS, Google Scholar
  • 12. Balss J, Meyer J, Mueller W, Korshunov A, Hartmann C, Von Deimling A. Analýza mutace IDH1 kodonu 132 u mozkových nádorů. Acta Neuropathol 116(6), 597-602 (2008).Crossref, Medline, CAS, Google Scholar
  • 13. Bleeker FE, Atai NA, Lamba S et al. Prognostická mutace IDH1(R132) je spojena se sníženou aktivitou IDH závislou na NADP+ u glioblastomu. Acta Neuropathol. 119(4), 487-494 (2010).Crossref, Medline, CAS, Google Scholar
  • 14. Khurshed M, Molenaar RJ, Lenting K, Leenders WP, Van Noorden CJF. Analýza genové exprese in silico odhaluje glykolýzu a acetátovou anaplerózu u gliomu s divokým typem IDH1 a laktátovou a glutamátovou anaplerózu u gliomu s mutací IDH1. Oncotarget 8(30), 49165-49177 (2017).Crossref, Medline, Google Scholar
  • 15. Khurshed M, Aarnoudse N, Hulsbos R et al. IDH1-mutované nádorové buňky jsou citlivé na cisplatinu a inhibitor IDH1-mutované buňky působí proti této citlivosti. FASEB J. 32, 6344-6352 (2018).Crossref, Google Scholar
  • 16. Molenaar RJ, Radivoyevitch T, Nagata Y et al. IDH1/2 mutace senzibilizují akutní myeloidní leukemii k inhibici PARP a tuto senzibilizaci zvrátí IDH1/2-mutované inhibitory. Clin. Cancer Res. 24(7), 1705-1715 (2018).Crossref, Medline, CAS, Google Scholar
  • 17. Frederiks WM, Bosch KS, De Jong JS, Van Noorden CJ. Posttranslační regulace aktivity glukózo-6-fosfátdehydrogenázy v (pre)neoplastických lézích v játrech potkanů. J. Histochem. Cytochem. 51(1), 105-112 (2003).Crossref, Medline, CAS, Google Scholar
  • 18. Verhaak RG, Hoadley KA, Purdom E et al. Integrated genomic analysis identifies clinically relevant subtypes of glioblastoma characterized by abnormalities in PDGFRA, IDH1, EGFR, and NF1. Cancer Cell 17(1), 98-110 (2010).Crossref, Medline, CAS, Google Scholar
  • 19. Cancer Genome Atlas Research N, Brat DJ, Verhaak RG et al. Comprehensive, integrative genomic analysis of diffuse lower-grade gliomas. N. Engl. J. Med. 372(26), 2481-2498 (2015). crossref, Medline, Google Scholar

.