Ein einfacher In-silico-Ansatz zur Erstellung von Genexpressionsprofilen aus Teilmengen von Krebsgenomdaten

In den letzten zehn Jahren haben Fortschritte in der Genomtechnologie die Identifizierung molekularer Mechanismen biologischer Prozesse und Krankheiten ermöglicht, was sich auf alle Bereiche der klinischen Forschung und insbesondere auf Krebs auswirkt. Intratumorale Heterogenität, dynamische Veränderungen im Genom von Krebszellen und genetische Aberrationen sind einzigartige Fingerabdrücke für jede Art von Krebs. Diese Merkmale von Krebs in Verbindung mit prognostischen Subtyp-Klassifizierungen und Risikostratifizierungen haben gezeigt, dass die Erstellung von Genexpressionsprofilen ein besseres Verständnis der molekularen Hintergründe von z. B. Prognose und Therapieempfindlichkeit bei Krebs ermöglicht. Darüber hinaus ist die Erstellung von Genexpressionsprofilen ein leistungsfähiger molekularer Ansatz zur Vorhersage der Empfindlichkeit gegenüber Arzneimitteln.

Um Kataloge von genomischen Veränderungen in verschiedenen Krebsarten zu erstellen, werden koordinierte groß angelegte Krebsgenomprojekte entwickelt. Die beiden wichtigsten Projekte sind der Cancer Genome Atlas (TCGA) und das International Cancer Genome Consortium (ICGC), an denen viele Zentren beteiligt sind, die verschiedene Plattformen nutzen, um Informationen zur Krebsgenomik wie Genexpression, DNA-Mutationen, DNA-Methylierung, Proteinexpression und klinische Daten zu liefern. Diese Projekte liefern große Mengen an genomischen Daten, die den Forschern helfen, neue Hypothesen zu entwickeln oder zu testen, die letztlich zur Entwicklung neuer Krebstherapien, Diagnosemethoden und Präventionsstrategien beitragen können. Die Erkundung, Integration und Analyse der großen Mengen komplizierter Daten stellt jedoch eine Herausforderung dar, insbesondere für Wissenschaftler, die keine Kenntnisse in Computerprogrammierung oder Informatik haben.

Die effektive Nutzung der großen Mengen an Krebsgenomdaten bleibt eine Herausforderung aufgrund der Grenzen der Computermethoden und unzureichender Anleitung. Die Datenvisualisierung ist für eine effiziente Datenanalyse sehr hilfreich, und es wurden fortschrittliche Tools entwickelt, um die Datenvisualisierung zu erleichtern, wie die frei zugänglichen Portale cBioPortal, UCSC Cancer Browser und canEvolve (Tabelle 1). Die frei zugänglichen Portale erleichtern jedoch vor allem die Untersuchung großer Datensätze und sind manchmal bei der tieferen Erforschung der Datensätze eingeschränkt. Hier beschreiben wir eine einfache, aber effektive Methode zur Untersuchung von Teilmengen von Proben oder Patienten mit einem bestimmten genetischen, biologischen oder klinischen Interesse. Wir konzentrieren uns auf die Erstellung von Profilen der Genexpression und stellen eine Methode zur Analyse von Genexpressionsdaten in Bezug auf DNA-Methylierung und Proteinexpression vor (Tabelle 2), die integriert werden kann, um Forschungshypothesen für bestimmte Krebsarten zu testen.

Tabelle 2. Übersicht über die verschiedenen Krebsgenomikdaten und die Art der Profilerstellung.
Genomischer Typ Daten
Genexpression RNA-seq
Tumor-RNA (Microarray)
DNA-Methylierung Methylierung (HM27)
Proteinexpression Reverse-phase protein array (RPPA)

Materialien & Methoden

Protokoll für die In-silico-Genexpressionsprofilierung

Die Genexpressionsprofilierung ist eine leistungsstarke Technik zur Untersuchung biologischer Prozesse auf molekularer Ebene. Die Genaktivität oder Expression kann durch die Identifizierung von Proteinen bewertet werden, aber die Genexpression wird normalerweise durch die Untersuchung der RNA-Botschaft oder des Transkripts untersucht. Zwei Hochdurchsatzmethoden, die häufig für die umfassende Erstellung von Genexpressionsprofilen verwendet werden, sind die RNA-Sequenzierung mit Next-Generation-Sequencing (NGS) und DNA-Mikroarrays.

Im Allgemeinen gibt es zwei Arten von Genexpressionsansätzen bei Krebs: die differenzielle und die relative Analyse. Beim differenziellen Ansatz werden Tumorexpressionsprofile im Vergleich zu den mit dem Patienten übereinstimmenden oder nicht übereinstimmenden normalen Gewebeproben aufgeklärt, während beim relativen Ansatz die Transkriptniveaus zwischen Tumortypen oder Zell- und Gewebeproben verglichen werden. Je nach spezifischem Ansatz kann die Erstellung von Genexpressionsprofilen von Proben und Präparaten nicht nur Einblicke in die Biologie geben, sondern auch Details über Struktur, Veränderungen und Variationen von Transkripten liefern. Viele frei zugängliche Portale bieten Werkzeuge für die Erforschung von Genexpressionsdaten an. Unser Protokoll wird mit dem von cBioPortal bereitgestellten Tool illustriert. Andere frei zugängliche Portale wie der UCSC Cancer Browser und canEvolve können ebenfalls für die Erforschung von Genomdaten verwendet werden. Wir stellen ein Schritt-für-Schritt-Protokoll in den nächsten Kapiteln zur Verfügung (Supplemental Protocol):

Übersicht und Auswahl des gewünschten Krebsdatensatzes (cBioPortal);

Erstellung von Fallgruppen/Teilgruppen von Interesse in einer einzigen Studie;

Integrative Analyse von Genen in einer einzigen Studie. Nach der Definition der Krebsstudie von Interesse in Abschnitt 1 und der Erstellung von Untergruppen von Proben/Patienten mit klinischen oder genetischen Daten von Interesse in Abschnitt 2. Dieser Abschnitt klassifiziert jedes Gen in jeder Probe und wird für alle genomischen Datenanalysen und Visualisierungen verwendet;

Erfassung von Genexpressions- und Proteinexpressionsdaten;

Erhebung von Methylierungsdaten;

Korrelationsanalyse. Um die Korrelation zwischen der Genexpression und dem Methylierungsstatus oder dem Proteinniveau zu untersuchen, bietet dieser Abschnitt ein Werkzeug zur Darstellung der Beziehung;

Graphische Visualisierung und statistische Analyse. Visualisierung und Analyse von Fallsätzen von mRNA-Expressions-, Methylierungs- oder Proteinexpressionsdaten, die in Abschnitt 5 gesammelt wurden, oder von Daten der Korrelationsanalyse aus Abschnitt 6.

Ergebnisse &Diskussion

Repräsentative Ergebnisse

Mutationen im IDH1-Gen sind Vorläufer bei der Entstehung von niedriggradigen Gliomen und sekundären Glioblastomen . Das Vorhandensein einer IDH1-Mutation (IDH1MUT) ist mit einem verlängerten Überleben von Gliompatienten im Vergleich zu IDH1-Wildtyp (IDH1WT) Patienten verbunden. Unter Verwendung der klinischen Outcome-Möglichkeiten des cBioPortals wird das Überleben in einer Gesamtüberlebenskurve dargestellt, die eine etwa sechsfache Verlängerung des Überlebens von IDH1MUT-Gliompatienten im Vergleich zu IDH1WT-Gliompatienten zeigt (Abbildung 1).

Abbildung 1. Repräsentative Analyse der Gesamtüberlebenskurven von IDH1MUT- und IDH1WT-Gliompatienten in der TCGA-Datenbank.

Für die Analyse wurde die fusionierte Kohorte von niedriggradigen Gliomen und Glioblastoma multiforme (TCGA, Cell 2016) analysiert, die 411 IDH1MUT- versus 401 IDH1WT-Gliompatienten umfasst. Die Kaplan-Meier-Darstellung des Gesamtüberlebens zeigt ein etwa sechsfach verlängertes Überleben von IDH1MUT-Gliompatienten (rot) im Vergleich zu IDH1WT-Gliompatienten (blau).

IDH1MUT induziert eine metabolische Neuverdrahtung, die noch nicht vollständig verstanden ist, aber die Erforschung von Unterschieden in den Expressionsniveaus von Stoffwechselenzymen ist ein vielversprechender Untersuchungsansatz. Die Auswirkungen von IDH1MUT auf die Expression von Genen, die für Stoffwechselenzyme kodieren, bieten eine Gelegenheit, die Möglichkeiten des cBioPortals zur Datenintegration, -exploration und -analyse zu demonstrieren. TCGA bietet Daten von 112 IDH1WT- versus 399 IDH1MUT-Proben von niedriggradigen Gliomen (LGG) und 157 IDH1WT- versus neun IDH1MUT-Glioblastom-Proben zur Untersuchung und Integration für die Analyse an.

Für den Glukosestoffwechsel wurden Gene ausgewählt, die für ratenlimitierende Stoffwechselenzyme kodieren: GLUT1/3, HK1, HK2, HK3, PKLR, PKM2, LDHA und LDHB. In IDH1WT- im Vergleich zu IDH1MUT-LGG- und Glioblastom-Patientenproben wurde eine höhere Genexpression für GLUT3, HK2, PKM2 und LDHA beobachtet (Abbildung 2), was darauf hindeutet, dass IDH1WT-Gliome für die ATP-Produktion stärker von der Glykolyse abhängen als IDH1MUT-Gliome.

Abbildung 2. Repräsentative Analyse der mRNA-Expressionsniveaus von Enzymen, die am Glukosestoffwechsel in IDH1WT- und IDH1MUT-Gliomen beteiligt sind.

Analyse von IDH1WT- (n = 112) und IDH1MUT- (n = 399) niedriggradigen Gliomen und IDH1WT- (n = 157) und IDH1MUT- (n = 9) Glioblastom-Proben, die aus dem cBioPortal unter Verwendung der TCGA-Datensätze Brain Lower Grade Glioma (provisorisch) und Glioblastoma Multiforme (provisorisch) stammen. Zusammengefasste Daten der relativen mRNA-Expressionsniveaus sind für IDH1WT (blau) und IDH1MUT (rot) dargestellt.

***p < 0,001; ****p < 0,0001.

G6PD: Glucose-6-Phosphat-Dehydrogenase; GLUT: Glukosetransporter; HK: Hexokinase; LDH: Laktatdehydrogenase; PK: Pyruvatkinase.

Da Mutationen in IDH1/2 auch bei 20 % der Patienten mit myeloischen Neoplasmen, einschließlich AML, vorkommen, ist in Abbildung 3 ein Beispiel für die mRNA-Expressionsanalyse der drei Gruppen IDHWT, IDH1MUT und IDH2MUT dargestellt. Die Studie zur akuten myeloischen Leukämie (AML; TCGA, vorläufig) bietet 136 IDHWT-, 16 IDH1MUT- und 16 IDH2MUT-AML-Proben zur Untersuchung der Genexpressionsprofile. In Abbildung 3 zeigen die mRNA-Expressionswerte des ATM-Gens, eines DNA-Schadensreaktionsproteins, in IDHWT-, IDH1MUT- und IDH2MUT-AML-Proben, dass die ATM-mRNA-Expression in IDH1MUT-AML stark vermindert ist.

Abbildung 3. Repräsentative Analyse der mRNA-Expressionsniveaus des ATM-Gens in IDHWT-, IDH1MUT- und IDH2MUT-Proben akuter myeloischer Leukämie.

Analyse von IDHWT- (n = 138), IDH1MUT- (n = 16) und IDH2MUT- (n = 16) Proben akuter myeloischer Leukämie, die aus dem cBioPortal unter Verwendung des TCGA-Datensatzes Akute myeloische Leukämie (provisorisch) gewonnen wurden. Die Daten der relativen mRNA-Expressionsniveaus sind für IDHWT (blau), IDH1MUT (rot) und IDH2MUT (grün) dargestellt.

**p < 0,01.

Ein weiteres Beispiel ist in Abbildung 4 dargestellt, die eine Darstellung der Genexpression gegenüber der DNA-Methylierung des LDHA-Gens in LGG zeigt. Niedrigere Expressionswerte von LDHA, wie sie in IDH1MUT-Gliomen beobachtet wurden, waren mit der Hypermethylierung seines Promotors verbunden (Abbildung 4A), aber niedrigere Expressionswerte des LDHB-Gens in IDH1WT korrelierten nicht mit der Methylierung (Abbildung 4B).

Abbildung 4. Repräsentative Analyse der Korrelation zwischen mRNA-Expression und Methylierung.

Darstellung der Korrelation von Genexpression und DNA-Methylierung des (A)LDHA-Gens und (B)LDHB-Gens bei niedriggradigen Gliomen (Brain Lower Grade Glioma, vorläufig) entsprechend dem IDH1MUT-Status (blau: IDH1WT, rot: IDH1MUT).

Um zu untersuchen, ob das Niveau der Genexpression mit der Proteinhäufigkeit korreliert, wird in Abbildung 5 ein anschauliches Beispiel gezeigt. In IDH1MUT-Gliomen wurden niedrigere Genexpressionsniveaus von G6PD im Vergleich zu IDH1WT-Gliomen beobachtet (Abbildung 5A), während die Proteinniveaus von G6PD in IDH1MUT- und IDH1WT-LGG gleich waren (Abbildung 5B), was auf zusätzliche posttranslationale Mechanismen hindeutet.

Abbildung 5. Repräsentative Analyse der Korrelation zwischen mRNA-Expression und Proteinhäufigkeit.

(A) Analyse der Genexpressionsniveaus von G6PD in niedriggradigen Gliomen (LGG) in Korrelation mit (B) der Proteinhäufigkeit von G6PD entsprechend dem IDH1MUT-Status (blau: IDH1WT, rot: IDH1MUT). (C) Plot der Korrelation von Genexpression und Proteinhäufigkeit.

****p < 0,0001.

LGG: Low-grade Gliom; ns: Nicht signifikant.

Die ständige Innovation hat dazu beigetragen, unser Verständnis von Krebs zu erweitern, hat aber auch die Krebsforschung zu einem der datenintensivsten Bereiche der Biologie gemacht. Gut strukturierte und organisierte Krebsgenomprojekte bieten den Forschern riesige Mengen an Tumorproben, die in ähnlicher Weise aufbereitet, normalisiert und für die computergestützte Analyse verarbeitet werden, um unser Verständnis der Krebsgenetik zu erweitern. Das hier aufgeführte Protokoll in Kombination mit Open-Access-Tools senkt die Zugangsbarrieren zu diesen komplexen Daten und bietet ein tiefergehendes Data Mining, um die Umsetzung genomischer Daten in neue biologische und klinische Erkenntnisse zu beschleunigen.

Das Gliom-Krebsgenomprojekt war eines der ersten Projekte des TCGA, das gut strukturierte Daten von Tumorproben aus mehreren Plattformen lieferte. Die genomische Analyse dieser Daten identifizierte klinisch relevante Subtypen des Glioblastoms und grenzte drei verschiedene molekulare Klassen von niedriggradigen Gliomen ab, darunter die Klasse mit der IDH-Mutation. Frei zugängliche Portale erleichtern den Zugang zu diesen Datensätzen, sind aber bei der Untersuchung bestimmter Gruppen begrenzt. Das in diesem Beitrag behandelte Protokoll beschreibt eine einfache Methode zur Untersuchung von Untergruppen von Proben oder Patienten mit einem bestimmten genetischen, biologischen oder klinischen Interesse, wie z. B. die Tumorproben mit einer IDH-Mutation. Zweitens beschreibt das Protokoll die Erstellung von Expressionsprofilen von Genen, die an einem bestimmten Signalweg oder Prozess, wie z. B. dem Stoffwechsel, in dieser speziellen Untergruppe von Proben beteiligt sind. Dies ermöglicht die Auswahl einzelner Gene von Interesse, anstatt alle Gene zu untersuchen, und klassifiziert jedes Gen in jeder Probe, die für die Analyse und Visualisierung verwendet wird. Schließlich wird eine multidimensionale Analyse angeboten, um die Genexpression im Zusammenhang mit der DNA-Methylierung und der Proteinexpression zu untersuchen.

Im Vergleich zu anderen verfügbaren Tools verwendet dieses Protokoll Web-Interface-Tools, die keine zusätzliche Software erfordern. Ein entscheidender Schritt in diesem Protokoll ist die Auswahl der richtigen Krebsgenomikstudie oder des Projekts, das die gewünschten Daten enthält. Derzeit speichern viele Portale Daten aus Datensätzen aus der Literatur und dem TCGA-Portal. So bietet beispielsweise cBioPortal derzeit 76 Krebsgenomikprojekte zur Genexpression (RNAseq und Microarray) in Kombination mit 21 Methylierungs- und 41 Proteinexpressionsprojekten. Die Aussagekraft des Vergleichs von Genomikdaten hängt davon ab, wie gut eine Probe in Bezug auf technische (z. B. Art der Datenverarbeitung) und biologische (z. B. molekularer Subtyp) Verzerrungen an die Referenz angepasst ist. Daher sind bei der Verwendung von Portalen, die Genomikdaten aus gut strukturierten Krebsgenomprojekten bereitstellen, keine fortgeschrittenen Normalisierungstechniken und Batch-Korrekturen erforderlich.

Zusammenfassend lässt sich sagen, dass unsere Methode den Import und die Integration einer selektiven Teilmenge von Proben mit spezifischen genomischen, biologischen oder klinischen Interessen ermöglicht, wie z. B. genomische Veränderungen, Mutationen, Krebs-Subtypen oder Überlebensmerkmale. Diese Methode enthält ein einzigartiges Konzept zur Erstellung von Genexpressionsprofilen und zur Verknüpfung dieser Profile mit DNA-Methylierung und Proteinexpression, die integriert werden können, um Forschungshypothesen für bestimmte Krebssubtypen zu testen.

Zukunftsperspektive

Die Krebsforschung hat sich zu einer der datenintensivsten Disziplinen der Biologie entwickelt. Das Genomics Evidence Neoplasia Information Exchange (GENIE)-Projekt gehört zu den größten bisher veröffentlichten genomischen Krebsdatensätzen, die vollständig öffentlich zugänglich sind. Einfach zu handhabende Portale, wie cBioPortal, werden in dieser Disziplin eine immer wichtigere Rolle spielen.

Beiträge der Autoren

MK konzipierte und führte die Forschung durch, RJM und CJFvN überwachten die Studie, MK und CJFvN schrieben das Manuskript, alle Autoren lasen und genehmigten die endgültige Version des Manuskripts

Finanzielle & konkurrierende Interessen offenlegen

Diese Forschung wurde von der niederländischen Krebsgesellschaft unterstützt (KWF Zuschüsse UVA 2014-6839 und AMC 2016.1-10460). Die Autoren haben keine anderen relevanten Verbindungen oder finanziellen Beteiligungen zu Organisationen oder Einrichtungen, die ein finanzielles Interesse an oder einen finanziellen Konflikt mit den im Manuskript behandelten Themen oder Materialien haben, abgesehen von den offengelegten.

Bei der Erstellung dieses Manuskripts wurde keine Schreibhilfe in Anspruch genommen.

  • 1. Hanahan D, Weinberg RA. The hallmarks of cancer. Cell 100(1), 57-70 (2000).Crossref, Medline, CAS, Google Scholar
  • 2. Chang JC, Wooten EC, Tsimelzon A et al. Gene expression profiling for the prediction of therapeutic response to docetaxel in patients with breast cancer. Lancet 362(9381), 362-369 (2003).Crossref, Medline, CAS, Google Scholar
  • 3. Byron SA, Van Keuren-Jensen KR, Engelthaler DM, Carpten JD, Craig DW. Die Umsetzung der RNA-Sequenzierung in die klinische Diagnostik: Chancen und Herausforderungen. Nat. Rev. Genet. 17(5), 257-271 (2016).Crossref, Medline, CAS, Google Scholar
  • 4. International Cancer Genome C, Hudson TJ, Anderson W et al. International network of cancer genome projects. Nature 464(7291), 993-998 (2010).Crossref, Medline, Google Scholar
  • 5. Chin L, Andersen JN, Futreal PA. Cancer genomics: from discovery science to personalized medicine. Nat. Med. 17(3), 297-303 (2011).Crossref, Medline, CAS, Google Scholar
  • 6. Weeraratna AT, Nagel JE, De Mello-Coelho V, Taub DD. Genexpressionsprofilierung: von Microarrays zur Medizin. J. Clin. Immunol. 24(3), 213-224 (2004).Crossref, Medline, CAS, Google Scholar
  • 7. Johnson JM, Castle J, Garrett-Engele P et al. Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays. Science 302(5653), 2141-2144 (2003).Crossref, Medline, CAS, Google Scholar
  • 8. Trapnell C, Williams BA, Pertea G et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat. Biotechnol. 28(5), 511-515 (2010).Crossref, Medline, CAS, Google Scholar
  • 9. Gao J, Aksoy BA, Dogrusoz U et al. Integrative analysis of complex cancer genomics and clinical profiles using the cBioPortal. Sci. Signal 6(269), pl1 (2013).Crossref, Medline, Google Scholar
  • 10. Cerami E, Gao J, Dogrusoz U et al. The cBio cancer genomics portal: an open platform for exploring multidimensional cancer genomics data. Cancer Discov. 2(5), 401-404 (2012).Crossref, Medline, Google Scholar
  • 11. Parsons DW, Jones S, Zhang X et al. An integrated genomic analysis of human glioblastoma multiforme. Science 321(5897), 1807-1812 (2008).Crossref, Medline, CAS, Google Scholar
  • 12. Balss J, Meyer J, Mueller W, Korshunov A, Hartmann C, Von Deimling A. Analysis of the IDH1 codon 132 mutation in brain tumors. Acta Neuropathol 116(6), 597-602 (2008).Crossref, Medline, CAS, Google Scholar
  • 13. Bleeker FE, Atai NA, Lamba S et al. The prognostic IDH1(R132) mutation is associated with reduced NADP+-dependent IDH activity in glioblastoma. Acta Neuropathol. 119(4), 487-494 (2010).Crossref, Medline, CAS, Google Scholar
  • 14. Khurshed M, Molenaar RJ, Lenting K, Leenders WP, Van Noorden CJF. In silico-Genexpressionsanalyse zeigt Glykolyse und Acetat-Anaplerose in IDH1-Wildtyp-Gliomen und Laktat- und Glutamat-Anaplerose in IDH1-mutierten Gliomen. Oncotarget 8(30), 49165-49177 (2017).Crossref, Medline, Google Scholar
  • 15. Khurshed M, Aarnoudse N, Hulsbos R et al. IDH1-mutierte Krebszellen sind empfindlich gegenüber Cisplatin und ein IDH1-Mutationsinhibitor wirkt dieser Empfindlichkeit entgegen. FASEB J. 32, 6344-6352 (2018).Crossref, Google Scholar
  • 16. Molenaar RJ, Radivoyevitch T, Nagata Y et al. IDH1/2-Mutationen sensibilisieren akute myeloische Leukämie für PARP-Inhibition und dies wird durch IDH1/2-Mutationsinhibitoren umgekehrt. Clin. Cancer Res. 24(7), 1705-1715 (2018).Crossref, Medline, CAS, Google Scholar
  • 17. Frederiks WM, Bosch KS, De Jong JS, Van Noorden CJ. Posttranslationale Regulation der Glucose-6-Phosphat-Dehydrogenase-Aktivität in (prä-)neoplastischen Läsionen in der Rattenleber. J. Histochem. Cytochem. 51(1), 105-112 (2003).Crossref, Medline, CAS, Google Scholar
  • 18. Verhaak RG, Hoadley KA, Purdom E et al. Integrated genomic analysis identifies clinically relevant subtypes of glioblastoma characterized by abnormalities in PDGFRA, IDH1, EGFR, and NF1. Cancer Cell 17(1), 98-110 (2010).Crossref, Medline, CAS, Google Scholar
  • 19. Cancer Genome Atlas Research N, Brat DJ, Verhaak RG et al. Comprehensive, integrative genomic analysis of diffuse lower-grade gliomas. N. Engl. J. Med. 372(26), 2481-2498 (2015).Crossref, Medline, Google Scholar