A simple in silico approach to generate gene-expression profiles from subsets of cancer genomics data

W ostatniej dekadzie postęp w technologiach genomowych umożliwił identyfikację molekularnych mechanizmów procesów biologicznych i chorób, wpływając na wszystkie obszary badań klinicznych, a w szczególności na nowotwory. Wewnątrzkomórkowa heterogenność, dynamiczne zmiany w genomie komórek nowotworowych i aberracje genetyczne są unikalnymi odciskami palców dla każdego typu nowotworu. Te cechy nowotworów, w połączeniu z klasyfikacjami podtypów prognostycznych i stratyfikacją ryzyka, wykazały, że profilowanie ekspresji genów pozwala na lepsze zrozumienie molekularnego podłoża, na przykład, rokowania i wrażliwości na terapię w nowotworach. Co więcej, profilowanie ekspresji genów jest potężnym molekularnym podejściem do przewidywania wrażliwości na leki .

W celu wygenerowania katalogów zmian genomowych w różnych typach nowotworów, rozwijane są skoordynowane projekty genomiki nowotworów na dużą skalę. Dwa główne projekty to Cancer Genome Atlas (TCGA) i International Cancer Genome Consortium (ICGC) , obejmujące wiele ośrodków wykorzystujących różne platformy do dostarczania informacji z zakresu genomiki nowotworów, takich jak ekspresja genów, mutacje DNA, metylacja DNA, ekspresja białek i dane kliniczne. Projekty te dostarczają dużych ilości danych genomowych, które pomagają badaczom w generowaniu lub testowaniu nowych hipotez, które mogą ostatecznie pomóc w rozwoju nowych terapii przeciwnowotworowych, metod diagnostycznych i strategii prewencyjnych. Jednak eksploracja, integracja i analiza dużej ilości skomplikowanych danych stanowi wyzwanie, szczególnie dla naukowców nieposiadających doświadczenia w programowaniu obliczeniowym lub informatyce.

Efektywne wykorzystanie dużej ilości danych genomu nowotworowego pozostaje wyzwaniem ze względu na ograniczenia metodologii obliczeniowych i niewystarczające wytyczne. Wizualizacja danych jest bardzo pomocna w efektywnej analizie danych i opracowano zaawansowane narzędzia ułatwiające wizualizację danych, takie jak ogólnodostępne portale cBioPortal, UCSC Cancer Browser i canEvolve (Tabela 1). Jednak portale ogólnodostępne ułatwiają głównie badanie dużych zbiorów danych i bywają ograniczone przy ich bardziej szczegółowej eksploracji. Tutaj opisujemy prostą, ale skuteczną metodę badania podzbiorów próbek lub pacjentów o określonym zainteresowaniu genetycznym, biologicznym lub klinicznym. Skupiamy się na profilowaniu ekspresji genów i przedstawiamy metodę analizy danych dotyczących ekspresji genów w odniesieniu do metylacji DNA i ekspresji białek (Tabela 2), które mogą być zintegrowane w celu testowania hipotez badawczych dla określonych typów nowotworów.

Tabela 2. Przegląd różnych danych genomiki nowotworów i typ do profilowania.
Typ genomiczny Dane
Ekspresja genów RNA-seq
Tumor RNA (microarray)
Metylacja DNA Metylacja (HM27)
Wyrażenie białka Reverse-phase protein array (RPPA)

Materiały &metody

Protokół profilowania ekspresji genów in silico

Profilowanie ekspresji genów jest potężną techniką badania procesów biologicznych na poziomie molekularnym. Aktywność genu, lub ekspresja, może być oceniana przez identyfikację białek, ale ekspresja genu jest zwykle badana przez badanie wiadomości RNA lub transkryptu. Dwie metody o wysokiej wydajności, które są powszechnie stosowane do kompleksowego profilowania ekspresji genów to sekwencjonowanie RNA z sekwencjonowaniem następnej generacji (NGS) i mikromacierze DNA .

Ogólnie, istnieją dwa rodzaje podejść do ekspresji genów w nowotworach: analiza różnicowa i analiza względna. W podejściu różnicowym profile ekspresji guza w stosunku do dopasowanych do pacjenta lub niedopasowanych normalnych próbek tkanek są wyjaśnione, podczas gdy podejście względne porównuje poziomy transkryptów w różnych typach nowotworów lub próbkach komórek i tkanek. W zależności od konkretnego podejścia, profilowanie ekspresji genów w próbkach może dostarczyć nie tylko wglądu w biologię, ale również szczegółów dotyczących struktury, zmian i wariacji transkryptów. Wiele portali z otwartym dostępem udostępnia narzędzia do eksploracji danych o ekspresji genów. Nasz protokół jest zilustrowany narzędziem dostarczonym przez cBioPortal . Inne portale z otwartym dostępem, takie jak UCSC Cancer Browser i canEvolve mogą być również użyte do eksploracji danych genomowych. Dostarczamy protokół krok po kroku z następnymi rozdziałami (Supplemental Protocol):

Przegląd i wybór interesującego nas zbioru danych o nowotworach (cBioPortal);

Tworzenie zbiorów przypadków/podbiorów zainteresowania w pojedynczym badaniu;

Integracyjna analiza genów w pojedynczym badaniu. Po zdefiniowaniu interesującego nas badania nowotworu w sekcji 1 i utworzeniu podzbiorów próbek/pacjentów z interesującymi nas danymi klinicznymi lub genetycznymi w sekcji 2. Ta sekcja klasyfikuje każdy gen w każdej próbce i jest używana do wszystkich analiz i wizualizacji danych genomowych;

Zbieranie danych dotyczących ekspresji genów i ekspresji białek;

Zbieranie danych dotyczących metylacji;

Analiza korelacji. W celu zbadania korelacji pomiędzy ekspresją genów a statusem metylacji lub poziomem białka, ta sekcja dostarcza narzędzia do wykreślania tych zależności;

Wizualizacja graficzna i analiza statystyczna. Wizualizacja i analiza zbiorów przypadków danych dotyczących ekspresji mRNA, metylacji lub ekspresji białek, zebranych w sekcji 5, lub danych analizy korelacji z sekcji 6.

Wyniki & dyskusja

Wyniki reprezentatywne

Mutacje w genie IDH1 są zdarzeniami przodującymi w powstawaniu glejaka niskiego stopnia i wtórnego glejaka . Obecność mutacji IDH1 (IDH1MUT) wiąże się z wydłużeniem czasu przeżycia pacjentów z glejakiem w porównaniu z pacjentami IDH1 wild-type (IDH1WT). Wykorzystując możliwości wyników klinicznych cBioPortal, przeżycie jest zilustrowane na wykresie przeżycia całkowitego z około sześciokrotnie dłuższym przeżyciem pacjentów z glejakiem IDH1MUT w porównaniu z pacjentami z glejakiem IDH1WT (Rycina 1).

Rycina 1. Reprezentatywna analiza krzywych przeżycia całkowitego porównująca chorych na glejaka IDH1MUT i IDH1WT w bazie danych TCGA.

Do analizy wykorzystano połączoną kohortę badania low-grade glioma i glioblastoma multiforme (TCGA, Cell 2016), obejmującą 411 chorych na glejaka IDH1MUT vs 401 chorych na glejaka IDH1WT. Overall survival Kaplan-Meier plot shows approximately sixfold prolonged survival of IDH1MUT glioma patients (red) compared to IDH1WT glioma patients (blue).

IDH1MUT indukuje przewijanie metaboliczne, które nie jest w pełni poznane, ale eksploracja różnic w poziomach ekspresji enzymów metabolicznych jest obiecującym podejściem badawczym. Wpływ IDH1MUT na ekspresję genów kodujących enzymy metaboliczne stwarza okazję do zademonstrowania możliwości cBioPortalu w zakresie integracji, eksploracji i analizy danych. TCGA oferuje dane 112 próbek IDH1WT versus 399 próbek IDH1MUT low-grade glioma (LGG) oraz 157 próbek IDH1WT versus dziewięć próbek IDH1MUT glioblastoma do zbadania i integracji do analizy.

W metabolizmie glukozy wybrano geny, które kodują enzymy metaboliczne ograniczające tempo: GLUT1/3, HK1, HK2, HK3, PKLR, PKM2, LDHA i LDHB. W próbkach IDH1WT versus IDH1MUT LGG i próbek pobranych od pacjentów z glejakiem zaobserwowano wyższy poziom ekspresji genów dla GLUT3, HK2, PKM2 i LDHA (Rycina 2), co sugeruje, że glejak IDH1WT w większym stopniu niż glejak IDH1MUT zależy od glikolizy w produkcji ATP.

Rycina 2. Reprezentatywna analiza poziomu ekspresji mRNA enzymów zaangażowanych w metabolizm glukozy w glejaku IDH1WT versus IDH1MUT.

Analiza próbek IDH1WT (n = 112) i IDH1MUT (n = 399) glejaka niskiego stopnia oraz IDH1WT (n = 157) i IDH1MUT (n = 9) glejaka, uzyskanych z cBioPortal przy użyciu zbiorów danych TCGA Brain Lower Grade Glioma (provisional) i Glioblastoma Multiforme (provisional). Połączone dane względnych poziomów ekspresji mRNA są pokazane dla IDH1WT (niebieski) i IDH1MUT (czerwony).

***p < 0,001; ****p < 0,0001.

G6PD: dehydrogenaza glukozo-6-fosforanowa; GLUT: transporter glukozy; HK: heksokinaza; LDH: dehydrogenaza mleczanowa; PK: kinaza pirogronianowa.

Ponieważ mutacje w IDH1/2 występują również u 20% pacjentów z nowotworami mieloidalnymi, w tym AML, przykład analizy ekspresji mRNA w trzech grupach, IDHWT, IDH1MUT i IDH2MUT przedstawiono na rycinie 3. Badanie ostrej białaczki szpikowej (AML; TCGA, Provisional) oferuje 136 próbek IDHWT, 16 IDH1MUT i 16 IDH2MUT AML w celu zbadania profili ekspresji genów. Na rycinie 3, poziomy ekspresji mRNA genu ATM, białka reagującego na uszkodzenia DNA , w próbkach IDHWT, IDH1MUT i IDH2MUT AML wskazują, że ekspresja mRNA ATM jest poważnie zmniejszona w IDH1MUT AML.

Figura 3. Reprezentatywna analiza poziomów ekspresji mRNA genu ATM w próbkach IDHWT, IDH1MUT i IDH2MUT ostrej białaczki szpikowej.

Analiza próbek IDHWT (n = 138), IDH1MUT (n = 16) i IDH2MUT (n = 16) ostrej białaczki szpikowej, uzyskanych z cBioPortal przy użyciu TCGA datasets Acute Myeloid Leukemia (provisional). Dane dotyczące względnych poziomów ekspresji mRNA przedstawiono dla IDHWT (niebieski), IDH1MUT (czerwony) i IDH2MUT (zielony).

**p < 0,01.

Inny przykład zilustrowano na rycinie 4, która jest wykresem ekspresji genu w stosunku do metylacji DNA genu LDHA w LGG. Niższe poziomy ekspresji LDHA obserwowane w glejaku IDH1MUT były związane z hipermetylacją jego promotora (Figura 4A), ale niższe poziomy ekspresji genu LDHB w IDH1WT nie korelowały z metylacją (Figura 4B).

Figura 4. Reprezentatywna analiza korelacji pomiędzy ekspresją mRNA a metylacją.

Plot korelacji ekspresji genów i metylacji DNA (A)genu LDHA i (B)genu LDHB w glejaku niskiego stopnia (Brain Lower Grade Glioma, provisional) w zależności od statusu IDH1MUT (niebieski: IDH1WT, czerwony: IDH1MUT).

Aby zbadać, czy poziomy ekspresji genów korelują z obfitością białek, ilustrujący przykład przedstawiono na rycinie 5. W glejaku IDH1MUT zaobserwowano niższe poziomy ekspresji genu G6PD w porównaniu z glejakiem IDH1WT (Figura 5A), podczas gdy poziomy białka G6PD były równe w IDH1MUT i IDH1WT LGG (Figura 5B), sugerując dodatkowe mechanizmy potranslacyjne w pracy .

Figura 5. Reprezentatywna analiza korelacji między ekspresją mRNA a obfitością białka.

(A) Analiza poziomów ekspresji genu G6PD w glejaku niskiego stopnia (LGG) w korelacji z (B) obfitością białka G6PD w zależności od statusu IDH1MUT (niebieski: IDH1WT, czerwony: IDH1MUT). (C) Plot of correlation of gene expression and protein abundance.

****p < 0.0001.

LGG: Low-grade glioma; ns: Not significant.

Ciągłe innowacje znacznie pomogły w rozszerzeniu naszego zrozumienia raka, ale także przekształciły badania nad rakiem w jedną z najbardziej wymagających danych dziedzin biologii. Dobrze zorganizowane projekty genomiki nowotworów oferują badaczom ogromne ilości próbek guzów, które są podobnie przygotowywane, normalizowane i przetwarzane do analizy obliczeniowej w celu rozszerzenia naszego zrozumienia genetyki nowotworów. Wymieniony tutaj protokół w połączeniu z narzędziami otwartego dostępu obniża bariery dostępu do tych złożonych danych i oferuje bardziej dogłębną eksplorację danych, aby przyspieszyć przełożenie danych genomowych na nowe spostrzeżenia biologiczne i kliniczne.

Projekt genomiki nowotworów glejaka był jednym z pierwszych projektów TCGA, który dostarczył dobrze ustrukturyzowanych danych próbek nowotworów z wielu platform. Analiza genomiczna tych danych pozwoliła na identyfikację klinicznie istotnych podtypów glejaka i wyodrębnienie trzech różnych klas molekularnych w glejaku o niskim stopniu złośliwości, w tym klasy z mutacją IDH. Portale o otwartym dostępie ułatwiają dostęp do tych zbiorów danych, ale są ograniczone w badaniu konkretnych grup. Protokół opisany w niniejszej pracy opisuje prostą metodę badania podzbiorów próbek lub pacjentów o określonym zainteresowaniu genetycznym, biologicznym lub klinicznym, takich jak próbki guzów z mutacją IDH. Po drugie, protokół opisuje jak wygenerować profile ekspresji genów zaangażowanych w określoną ścieżkę lub proces, taki jak metabolizm, w tym konkretnym podzbiorze próbek. Pozwala to na wybór pojedynczych genów zamiast eksploracji wszystkich genów, a także na klasyfikację każdego genu w każdej próbce, która jest używana do analizy i wizualizacji. Wreszcie, analiza wielowymiarowa jest dostarczana do badania ekspresji genów w odniesieniu do metylacji DNA i ekspresji białek.

W porównaniu z innymi dostępnymi narzędziami, protokół ten wykorzystuje narzędzia interfejsu sieciowego, które nie wymagają dodatkowego oprogramowania. Krytycznym krokiem w protokole jest wybór właściwego badania genomiki nowotworów lub projektu, który zawiera interesujące nas dane. Obecnie wiele portali przechowuje dane z zestawów danych z literatury i portalu TCGA. Przykładowo, cBioPortal udostępnia obecnie 76 projektów genomiki nowotworów dotyczących ekspresji genów (RNAseq i mikromacierze) w połączeniu z 21 projektami dotyczącymi metylacji i 41 projektami dotyczącymi ekspresji białek. Ważność porównania danych genomicznych zależy od tego, jak dobrze próbka jest dopasowana do referencji pod względem technicznych (np. rodzaj przetwarzania danych) i biologicznych (np. podtyp molekularny) błędów. Dlatego korzystanie z portali, które dostarczają dane genomiczne z dobrze ustrukturyzowanych projektów genomicznych nowotworów, nie wymaga zaawansowanych technik normalizacji i korekt partii.

Podsumowując, nasza metoda pozwala na import i integrację selektywnego podzbioru próbek o specyficznych genomicznych, biologicznych lub klinicznych zainteresowaniach, takich jak mutacje genomowe, mutacje, podtypy nowotworów lub właściwości przeżycia. Metoda ta zawiera unikalną koncepcję generowania profili ekspresji genów i łączenia tych profili z metylacją DNA i ekspresją białek, które mogą być zintegrowane w celu testowania hipotez badawczych w określonych podtypach raka.

Perspektywy na przyszłość

Badania nad rakiem ewoluowały w jedną z najbardziej wymagających danych dyscyplin w biologii. Projekt Genomics Evidence Neoplasia Information Exchange (GENIE) jest jednym z największych w pełni publicznych zbiorów danych genomicznych dotyczących nowotworów, jakie zostały do tej pory opublikowane. Łatwe w zarządzaniu portale, takie jak cBioPortal, będą odgrywały coraz większą rolę w tej dyscyplinie.

Wkład autorów

MK zaprojektował i wykonał badania, RJM i CJFvN nadzorowali badanie, MK i CJFvN napisali manuskrypt, all authors read and approved the final version of the manuscript

Financial & competing interests disclosure

This research was supported by the Dutch Cancer Society (KWF grants UVA 2014-6839 and AMC 2016.1-10460). The authors have no other relevant affiliations or financial involvement with any organization or entity with a financial interest in or financial conflict with the subject matter or materials discussed in the manuscript apart from those disclosed.

No writing assistance was utilized in the production of this manuscript.

  • 1. Hanahan D, Weinberg RA. Znaki rozpoznawcze raka. Cell 100(1), 57-70 (2000).Crossref, Medline, CAS, Google Scholar
  • 2. Chang JC, Wooten EC, Tsimelzon A et al. Gene expression profiling for the prediction of therapeutic response to docetaxel in patients with breast cancer. Lancet 362(9381), 362-369 (2003).Crossref, Medline, CAS, Google Scholar
  • 3. Byron SA, Van Keuren-Jensen KR, Engelthaler DM, Carpten JD, Craig DW. Przekładanie sekwencjonowania RNA na diagnostykę kliniczną: możliwości i wyzwania. Nat. Rev. Genet. 17(5), 257-271 (2016).Crossref, Medline, CAS, Google Scholar
  • 4. International Cancer Genome C, Hudson TJ, Anderson W et al. International network of cancer genome projects. Nature 464(7291), 993-998 (2010).Crossref, Medline, Google Scholar
  • 5. Chin L, Andersen JN, Futreal PA. Genomika nowotworów: od nauki odkrywczej do medycyny spersonalizowanej. Nat. Med. 17(3), 297-303 (2011).Crossref, Medline, CAS, Google Scholar
  • 6. Weeraratna AT, Nagel JE, De Mello-Coelho V, Taub DD. Profilowanie ekspresji genów: od mikromacierzy do medycyny. J. Clin. Immunol. 24(3), 213-224 (2004).Crossref, Medline, CAS, Google Scholar
  • 7. Johnson JM, Castle J, Garrett-Engele P et al. Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays. Science 302(5653), 2141-2144 (2003).Crossref, Medline, CAS, Google Scholar
  • 8. Trapnell C, Williams BA, Pertea G et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat. Biotechnol. 28(5), 511-515 (2010).Crossref, Medline, CAS, Google Scholar
  • 9. Gao J, Aksoy BA, Dogrusoz U et al. Integracyjna analiza złożonej genomiki nowotworów i profili klinicznych przy użyciu cBioPortal. Sci. Signal 6(269), pl1 (2013).Crossref, Medline, Google Scholar
  • 10. Cerami E, Gao J, Dogrusoz U et al. The cBio cancer genomics portal: otwarta platforma do eksploracji wielowymiarowych danych genomiki nowotworów. Cancer Discov. 2(5), 401-404 (2012).Crossref, Medline, Google Scholar
  • 11. Parsons DW, Jones S, Zhang X i wsp. Zintegrowana analiza genomiczna ludzkiego glioblastoma multiforme. Science 321(5897), 1807-1812 (2008).Crossref, Medline, CAS, Google Scholar
  • 12. Balss J, Meyer J, Mueller W, Korshunov A, Hartmann C, Von Deimling A. Analiza mutacji kodonu 132 IDH1 w guzach mózgu. Acta Neuropathol 116(6), 597-602 (2008).Crossref, Medline, CAS, Google Scholar
  • 13. Bleeker FE, Atai NA, Lamba S et al. Prognostyczna mutacja IDH1(R132) jest związana ze zmniejszoną aktywnością IDH zależną od NADP+ w glioblastoma. Acta Neuropathol. 119(4), 487-494 (2010).Crossref, Medline, CAS, Google Scholar
  • 14. Khurshed M, Molenaar RJ, Lenting K, Leenders WP, Van Noorden CJF. In silico gene expression analysis reveals glycolysis and acetate anaplerosis in IDH1 wild-type glioma and lactate and glutamate anaplerosis in IDH1-mutated glioma. Oncotarget 8(30), 49165-49177 (2017).Crossref, Medline, Google Scholar
  • 15. Khurshed M, Aarnoudse N, Hulsbos R i wsp. Komórki nowotworowe z mutacją IDH1 są wrażliwe na cisplatynę, a inhibitor mutacji IDH1 przeciwdziała tej wrażliwości. FASEB J. 32, 6344-6352 (2018).Crossref, Google Scholar
  • 16. Molenaar RJ, Radivoyevitch T, Nagata Y i wsp. Mutacje IDH1/2 uczulają ostrą białaczkę szpikową na inhibicję PARP i jest to odwracane przez inhibitory mutacji IDH1/2. Clin. Cancer Res. 24(7), 1705-1715 (2018).Crossref, Medline, CAS, Google Scholar
  • 17. Frederiks WM, Bosch KS, De Jong JS, Van Noorden CJ. Post-translacyjna regulacja aktywności dehydrogenazy glukozo-6-fosforanowej w zmianach (przed)nowotworowych w wątrobie szczura. J. Histochem. Cytochem. 51(1), 105-112 (2003).Crossref, Medline, CAS, Google Scholar
  • 18. Verhaak RG, Hoadley KA, Purdom E et al. Zintegrowana analiza genomowa identyfikuje klinicznie istotne podtypy glioblastoma charakteryzujące się nieprawidłowościami w PDGFRA, IDH1, EGFR i NF1. Cancer Cell 17(1), 98-110 (2010).Crossref, Medline, CAS, Google Scholar
  • 19. Cancer Genome Atlas Research N, Brat DJ, Verhaak RG et al. Comprehensive, integrative genomic analysis of diffuse lower-grade gliomas. N. Engl. J. Med. 372(26), 2481-2498 (2015).Crossref, Medline, Google Scholar

.