Un semplice approccio in silico per generare profili di espressione genica da sottoinsiemi di dati di genomica del cancro

Ottobre 5, 2021

Nell’ultimo decennio, i progressi nelle tecnologie del genoma hanno permesso di identificare i meccanismi molecolari dei processi biologici e delle malattie, con un impatto su tutte le aree della ricerca clinica, il cancro in particolare. L’eterogeneità intratumorale, i cambiamenti dinamici nel genoma delle cellule tumorali e le aberrazioni genetiche sono impronte digitali uniche per ogni tipo di cancro. Queste caratteristiche del cancro, in combinazione con le classificazioni prognostiche dei sottotipi e la stratificazione del rischio, hanno dimostrato che la profilazione dell’espressione genica permette una migliore comprensione degli sfondi molecolari, per esempio, della prognosi e della sensibilità alla terapia nel cancro. Inoltre, il profilo di espressione genica è un potente approccio molecolare per prevedere la sensibilità ai farmaci.

Al fine di generare cataloghi di alterazioni genomiche in diversi tipi di cancro, sono stati sviluppati progetti coordinati di genomica del cancro su larga scala. I due progetti principali sono il Cancer Genome Atlas (TCGA) e l’International Cancer Genome Consortium (ICGC), che comprende molti centri che utilizzano diverse piattaforme per fornire informazioni di genomica del cancro come l’espressione genica, mutazioni del DNA, metilazione del DNA, espressione delle proteine e dati clinici. Questi progetti forniscono grandi quantità di dati genomici per aiutare i ricercatori a generare o testare nuove ipotesi che possono infine aiutare nello sviluppo di nuove terapie del cancro, metodi diagnostici e strategie preventive. Tuttavia, l’esplorazione, l’integrazione e l’analisi di grandi quantità di dati complicati è una sfida, soprattutto per gli scienziati che non hanno un background in programmazione computazionale o informatica.

L’uso efficace delle grandi quantità di dati del genoma del cancro rimane una sfida a causa delle limitazioni delle metodologie computazionali e della guida insufficiente. La visualizzazione dei dati è molto utile per un’analisi efficiente dei dati e sono stati sviluppati strumenti avanzati per facilitare la visualizzazione dei dati, come i portali ad accesso aperto cBioPortal, UCSC Cancer Browser e canEvolve (Tabella 1). Tuttavia, i portali ad accesso aperto facilitano principalmente le indagini di grandi serie di dati e a volte sono limitati quando si esplorano le serie di dati in modo più approfondito. Qui, descriviamo un metodo semplice ma efficace per indagare sottoinsiemi di campioni o pazienti con uno specifico interesse genetico, biologico o clinico. Ci concentriamo sul profiling dell’espressione genica e presentiamo un metodo per l’analisi dei dati di espressione genica in relazione alla metilazione del DNA e all’espressione proteica (Tabella 2), che può essere integrato per testare le ipotesi di ricerca per specifici tipi di cancro.

Tabella 2. Panoramica dei diversi dati di genomica del cancro e del tipo di profilazione.
Tipo genomico	Dati
Espressione genica	RNA-seq RNA tumorale (microarray)
Metilazione del DNA	Metilazione (HM27)
Espressione proteica	Reverse-phase protein array (RPPA)

Materiali & metodi
Protocollo per il profilo di espressione genica in silico
Risultati & discussione
Risultati rappresentativi
Prospettiva futura
Contributi degli autori
Disconoscimento degli interessi finanziari &concorrenti

Materiali & metodi

Protocollo per il profilo di espressione genica in silico

Il profilo di espressione genica è una tecnica potente per studiare i processi biologici a livello molecolare. L’attività genica, o espressione, può essere valutata attraverso l’identificazione della proteina, ma l’espressione genica viene solitamente studiata esaminando il messaggio di RNA o trascrizione. Due metodi high-throughput che sono comunemente usati per la profilazione completa dell’espressione genica sono il sequenziamento dell’RNA con sequenziamento di prossima generazione (NGS) e i microarray di DNA.

In termini generali, ci sono due tipi di approcci di espressione genica nel cancro: l’analisi differenziale e quella relativa. Nell’approccio differenziale, vengono chiariti i profili di espressione del tumore rispetto ai campioni di tessuto normale abbinati o non abbinati al paziente, mentre l’approccio relativo confronta i livelli di trascrizione tra tipi di tumore o campioni di cellule e tessuti. A seconda dell’approccio specifico, la profilazione dell’espressione genica di campioni ed esemplari può fornire intuizioni non solo sulla biologia, ma anche fornire dettagli sulla struttura, alterazioni e variazioni dei trascritti. Molti portali ad accesso aperto facilitano gli strumenti per l’esplorazione dei dati di espressione genica. Il nostro protocollo è illustrato con lo strumento fornito da cBioPortal. Gli altri portali ad accesso aperto come UCSC Cancer Browser e canEvolve possono anche essere utilizzati per l’esplorazione dei dati genomici. Forniamo un protocollo passo dopo passo nei prossimi capitoli (Protocollo supplementare):

	Panoramica e selezione del dataset del cancro di interesse (cBioPortal);
	Creazione di set di casi/sottoinsiemi di interesse in un unico studio;
	Analisi integrativa dei geni in un unico studio. Dopo aver definito lo studio sul cancro di interesse nella sezione 1 e aver creato sottoinsiemi di campioni/pazienti con dati clinici o genetici di interesse nella sezione 2. Questa sezione classifica ogni gene in ogni campione ed è usata per tutte le analisi e la visualizzazione dei dati genomici;
	Raccolta di dati di espressione genica e proteica;
	Raccolta di dati di metilazione;
	Analisi di correlazione. Al fine di indagare la correlazione tra l’espressione genica e lo stato di metilazione o il livello delle proteine, questa sezione fornisce uno strumento per tracciare la relazione;
	Visualizzazione grafica e analisi statistica. Visualizzazione e analisi di set di casi di dati di espressione di mRNA, metilazione o espressione di proteine raccolti nella sezione 5, o dati di analisi di correlazione della sezione 6.

Risultati & discussione

Risultati rappresentativi

Mutazioni nel gene IDH1 sono eventi ancestrali nella formazione del glioma di basso grado e del glioblastoma secondario . La presenza di una mutazione IDH1 (IDH1MUT) è associata a una sopravvivenza prolungata dei pazienti con glioma rispetto ai pazienti con IDH1 wild-type (IDH1WT). Utilizzando le possibilità di risultati clinici del cBioPortal, la sopravvivenza è illustrata in un grafico di sopravvivenza globale con una sopravvivenza approssimativamente sei volte maggiore dei pazienti con glioma IDH1MUT rispetto ai pazienti con glioma IDH1WT (Figura 1).

Figura 1. Analisi rappresentativa delle curve di sopravvivenza globale che confronta i pazienti con glioma IDH1MUT e IDH1WT nel database TCGA.

Per l’analisi, è stata analizzata la coorte fusa dello studio del glioma di basso grado e del glioblastoma multiforme (TCGA, Cell 2016), comprendente 411 pazienti con glioma IDH1MUT contro 401 con glioma IDH1WT. La sopravvivenza globale Kaplan-Meier plot mostra una sopravvivenza prolungata di circa sei volte dei pazienti con glioma IDH1MUT (rosso) rispetto ai pazienti con glioma IDH1WT (blu).

IDH1MUT induce un ricablaggio metabolico che non è completamente compreso ma l’esplorazione delle differenze nei livelli di espressione degli enzimi metabolici è un approccio investigativo promettente. Gli effetti di IDH1MUT sull’espressione dei geni che codificano per gli enzimi metabolici offrono un’opportunità per dimostrare le possibilità del cBioPortal di eseguire l’integrazione, l’esplorazione e l’analisi dei dati. TCGA offre i dati di 112 campioni di IDH1WT contro 399 campioni di glioma a basso grado (LGG) IDH1MUT e 157 campioni di glioblastoma IDH1WT contro nove campioni di glioblastoma IDH1MUT da studiare e integrare per l’analisi.

Nel metabolismo del glucosio, sono stati selezionati i geni che codificano per enzimi metabolici limitanti: GLUT1/3, HK1, HK2, HK3, PKLR, PKM2, LDHA e LDHB. In IDH1WT rispetto a IDH1MUT LGG e glioblastoma campioni di pazienti, sono stati osservati livelli più elevati di espressione genica per GLUT3, HK2, PKM2 e LDHA (Figura 2), suggerendo che glioma IDH1WT dipendono più sulla glicolisi per la produzione di ATP di IDH1MUT glioma.

Figura 2. Analisi rappresentativa dei livelli di espressione dell’mRNA degli enzimi coinvolti nel metabolismo del glucosio nel glioma IDH1WT contro IDH1MUT.

Analisi di IDH1WT (n = 112) e IDH1MUT (n = 399) glioma di basso grado e IDH1WT (n = 157) e IDH1MUT (n = 9) campioni di glioblastoma, ottenuti dal cBioPortal utilizzando i dataset TCGA Brain Lower Grade Glioma (provvisorio) e Glioblastoma Multiforme (provvisorio). I dati fusi dei livelli di espressione relativa di mRNA sono mostrati per IDH1WT (blu) e IDH1MUT (rosso).

***p < 0.001; ****p < 0.0001.

G6PD: Glucosio-6-fosfato deidrogenasi; GLUT: Glucose transporter; HK: Esochinasi; LDH: Lattato deidrogenasi; PK: Piruvato chinasi.

Come le mutazioni in IDH1/2 si verificano anche nel 20% dei pazienti con neoplasie mieloidi, tra cui AML, un esempio di analisi di espressione mRNA dei tre gruppi, IDHWT, IDH1MUT e IDH2MUT è presentato nella Figura 3. Lo studio della leucemia mieloide acuta (AML; TCGA, provvisorio) offre 136 campioni AML IDHWT, 16 IDH1MUT e 16 IDH2MUT per studiare i profili di espressione genica. Nella Figura 3, i livelli di espressione dell’mRNA del gene ATM, una proteina di risposta al danno al DNA, nei campioni di AML IDHWT, IDH1MUT e IDH2MUT indicano che l’espressione dell’mRNA di ATM è gravemente diminuita nella AML IDH1MUT.

Figura 3. Analisi rappresentativa dei livelli di espressione di mRNA del gene ATM nei campioni di leucemia mieloide acuta IDHWT, IDH1MUT e IDH2MUT.

Analisi dei campioni di leucemia mieloide acuta IDHWT (n = 138), IDH1MUT (n = 16) e IDH2MUT (n = 16), ottenuti dal cBioPortal utilizzando il dataset TCGA Acute Myeloid Leukemia (provvisorio). I dati dei livelli di espressione mRNA relativi sono mostrati per IDHWT (blu), IDH1MUT (rosso) e IDH2MUT (verde).

**p < 0.01.

Un altro esempio è illustrato nella Figura 4, che è un grafico di espressione genica rispetto alla metilazione del DNA del gene LDHA in LGG. Più bassi livelli di espressione di LDHA come osservato nel glioma IDH1MUT sono stati associati con ipermetilazione del suo promotore (Figura 4A), ma più bassi livelli di espressione del gene LDHB in IDH1WT non sono stati correlati con metilazione (Figura 4B).

Figura 4. Analisi rappresentativa della correlazione tra l’espressione del mRNA e la metilazione.

Plot di correlazione dell’espressione genica e della metilazione del DNA del gene (A)LDHA e (B)LDHB nel glioma di basso grado (Brain Lower Grade Glioma, provvisorio) secondo lo stato IDH1MUT (blu: IDH1WT, rosso: IDH1MUT).

Per indagare se i livelli di espressione genica sono correlati all’abbondanza proteica, un esempio illustrativo è dimostrato nella Figura 5. Nel glioma IDH1MUT, sono stati osservati livelli di espressione genica inferiori di G6PD rispetto al glioma IDH1WT (Figura 5A), mentre i livelli proteici di G6PD erano uguali in IDH1MUT e IDH1WT LGG (Figura 5B), suggerendo ulteriori meccanismi post-traslazionali al lavoro. Analisi rappresentativa della correlazione tra l’espressione del mRNA e l’abbondanza della proteina.

(A) Analisi dei livelli di espressione genica di G6PD nel glioma di basso grado (LGG) in correlazione con (B) abbondanza proteica di G6PD secondo lo stato IDH1MUT (blu: IDH1WT, rosso: IDH1MUT). (C) grafico di correlazione dell’espressione genica e abbondanza proteica.

****p < 0.0001.

LGG: Glioma di basso grado; ns: Non significativo.

L’innovazione costante ha notevolmente aiutato l’espansione della nostra comprensione del cancro, ma ha anche trasformato la ricerca sul cancro in uno dei campi della biologia a più alta intensità di dati. Progetti di genomica del cancro ben strutturati e organizzati stanno offrendo ai ricercatori enormi quantità di campioni tumorali che vengono preparati, normalizzati ed elaborati in modo simile per l’analisi computazionale per estendere la nostra comprensione della genetica del cancro. Il protocollo che è elencato qui in combinazione con gli strumenti open-access abbassa le barriere di accesso a questi dati complessi e offre un data mining più profondo per accelerare la traduzione dei dati genomici in nuove intuizioni biologiche e cliniche.

Il progetto di genomica del cancro del glioma è stato uno dei primi progetti del TCGA che ha fornito dati ben strutturati di campioni tumorali da più piattaforme. L’analisi genomica di questi dati ha identificato sottotipi clinicamente rilevanti di glioblastoma e ha delineato tre diverse classi molecolari nel glioma a basso grado, compresa la classe con la mutazione IDH. I portali ad accesso aperto facilitano l’accesso a questi set di dati, ma sono limitati nell’indagare gruppi specifici. Il protocollo affrontato in questo articolo descrive un metodo semplice per indagare sottoinsiemi di campioni o pazienti con uno specifico interesse genetico, biologico o clinico, come i campioni di tumore con una mutazione IDH. In secondo luogo, il protocollo descrive come generare profili di espressione dei geni coinvolti in un particolare percorso o processo, come il metabolismo, in questo particolare sottoinsieme di campioni. Questo permette la selezione di singoli geni di interesse invece di esplorare tutti i geni, e classifica ogni gene in ogni campione che viene utilizzato per l’analisi e la visualizzazione. Infine, l’analisi multidimensionale è fornito per indagare l’espressione genica in relazione alla metilazione del DNA e l’espressione delle proteine.

Paragonabile ad altri strumenti disponibili, questo protocollo utilizza strumenti di interfaccia web che non richiedono software aggiuntivo. Un passo critico nel protocollo è la selezione del corretto studio o progetto di genomica del cancro che contiene i dati di interesse. Attualmente, molti portali memorizzano i dati da set di dati dalla letteratura e dal portale TCGA. Come esempio, cBioPortal fornisce attualmente 76 progetti di genomica del cancro di espressione genica (RNAseq e microarray) in combinazione con 21 progetti di metilazione e 41 di espressione delle proteine. La validità del confronto dei dati genomici dipende da quanto bene un campione è abbinato al riferimento in termini di bias tecnici (ad esempio, il tipo di elaborazione dei dati) e bias biologici (ad esempio, il sottotipo molecolare). Pertanto, l’utilizzo di portali che forniscono dati genomici da progetti genomici del cancro ben strutturati non richiede tecniche avanzate di normalizzazione e correzioni batch.

In sintesi, il nostro metodo consente l’importazione e l’integrazione di un sottoinsieme selettivo di campioni con specifico interesse genomico, biologico o clinico, come alterazione genomica, mutazione, sottotipi di cancro o proprietà di sopravvivenza. Questo metodo contiene un concetto unico per generare profili di espressione genica e per incrociare questi profili con la metilazione del DNA e l’espressione delle proteine, che possono essere integrati per testare ipotesi di ricerca in specifici sottotipi di cancro.

Prospettiva futura

La ricerca sul cancro si è evoluta in una delle discipline a più alta intensità di dati in biologia. Con il progetto Genomics Evidence Neoplasia Information Exchange (GENIE) tra i più grandi set di dati genomici sul cancro completamente pubblici rilasciati fino ad oggi. Portali facili da gestire, come cBioPortal, giocheranno un ruolo sempre più essenziale in questa disciplina.

Contributi degli autori

MK ha progettato ed eseguito la ricerca, RJM e CJFvN hanno supervisionato lo studio, MK e CJFvN hanno scritto il manoscritto, tutti gli autori hanno letto e approvato la versione finale del manoscritto

Disconoscimento degli interessi finanziari &concorrenti

Questa ricerca è stata sostenuta dalla Dutch Cancer Society (sovvenzioni KWF UVA 2014-6839 e AMC 2016.1-10460). Gli autori non hanno altre affiliazioni rilevanti o coinvolgimento finanziario con qualsiasi organizzazione o entità con un interesse finanziario o conflitto finanziario con l’argomento o i materiali discussi nel manoscritto oltre a quelli divulgati.

Nessuna assistenza alla scrittura è stata utilizzata nella produzione di questo manoscritto.

1. Hanahan D, Weinberg RA. I segni distintivi del cancro. Cell 100(1), 57-70 (2000).Crossref, Medline, CAS, Google Scholar
2. Chang JC, Wooten EC, Tsimelzon A et al. Gene expression profiling for the prediction of therapeutic response to docetaxel in patients with breast cancer. Lancet 362(9381), 362-369 (2003).Crossref, Medline, CAS, Google Scholar
3. Byron SA, Van Keuren-Jensen KR, Engelthaler DM, Carpten JD, Craig DW. Tradurre il sequenziamento dell’RNA nella diagnostica clinica: opportunità e sfide. Nat. Rev. Genet. 17(5), 257-271 (2016).Crossref, Medline, CAS, Google Scholar
4. International Cancer Genome C, Hudson TJ, Anderson W et al. International network of cancer genome projects. Nature 464(7291), 993-998 (2010).Crossref, Medline, Google Scholar
5. Chin L, Andersen JN, Futreal PA. Genomica del cancro: dalla scienza della scoperta alla medicina personalizzata. Nat. Med. 17(3), 297-303 (2011).Crossref, Medline, CAS, Google Scholar
6. Weeraratna AT, Nagel JE, De Mello-Coelho V, Taub DD. Profili di espressione genica: dai microarray alla medicina. J. Clin. Immunol. 24(3), 213-224 (2004).Crossref, Medline, CAS, Google Scholar
7. Johnson JM, Castle J, Garrett-Engele P et al. Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays. Science 302(5653), 2141-2144 (2003).Crossref, Medline, CAS, Google Scholar
8. Trapnell C, Williams BA, Pertea G et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat. Biotechnol. 28(5), 511-515 (2010).Crossref, Medline, CAS, Google Scholar
9. Gao J, Aksoy BA, Dogrusoz U et al. Analisi integrativa della genomica complessa del cancro e profili clinici utilizzando il cBioPortal. Sci. Signal 6(269), pl1 (2013).Crossref, Medline, Google Scholar
10. Cerami E, Gao J, Dogrusoz U et al. Il portale di genomica del cancro cBio: una piattaforma aperta per esplorare i dati multidimensionali di genomica del cancro. Cancer Discov. 2(5), 401-404 (2012).Crossref, Medline, Google Scholar
11. Parsons DW, Jones S, Zhang X et al. Un’analisi genomica integrata del glioblastoma multiforme umano. Scienza 321(5897), 1807-1812 (2008).Crossref, Medline, CAS, Google Scholar
12. Balss J, Meyer J, Mueller W, Korshunov A, Hartmann C, Von Deimling A. Analisi della mutazione IDH1 codone 132 nei tumori del cervello. Acta Neuropathol 116(6), 597-602 (2008).Crossref, Medline, CAS, Google Scholar
13. Bleeker FE, Atai NA, Lamba S et al. La mutazione prognostica IDH1(R132) è associata a una ridotta attività IDH NADP+-dipendente nel glioblastoma. Acta Neuropathol. 119(4), 487-494 (2010).Crossref, Medline, CAS, Google Scholar
14. Khurshed M, Molenaar RJ, Lenting K, Leenders WP, Van Noorden CJF. In silico analisi di espressione genica rivela glicolisi e anaplerosi acetato in IDH1 wild-type glioma e lattato e glutammato anaplerosi in IDH1-mutati glioma. Oncotarget 8(30), 49165-49177 (2017).Crossref, Medline, Google Scholar
15. Khurshed M, Aarnoudse N, Hulsbos R et al. Le cellule tumorali IDH1-mutanti sono sensibili al cisplatino e un inibitore IDH1-mutante contrasta questa sensibilità. FASEB J. 32, 6344-6352 (2018).Crossref, Google Scholar
16. Molenaar RJ, Radivoyevitch T, Nagata Y et al. Le mutazioni IDH1/2 sensibilizzano la leucemia mieloide acuta all’inibizione PARP e questo viene invertito dagli inibitori IDH1/2-mutanti. Clin. Cancer Res. 24(7), 1705-1715 (2018).Crossref, Medline, CAS, Google Scholar
17. Frederiks WM, Bosch KS, De Jong JS, Van Noorden CJ. Regolazione post-traslazionale dell’attività della glucosio-6-fosfato deidrogenasi nelle lesioni (pre)neoplastiche nel fegato di ratto. J. Histochem. Cytochem. 51(1), 105-112 (2003).Crossref, Medline, CAS, Google Scholar
18. Verhaak RG, Hoadley KA, Purdom E et al. L’analisi genomica integrata identifica sottotipi clinicamente rilevanti di glioblastoma caratterizzati da anomalie in PDGFRA, IDH1, EGFR e NF1. Cancer Cell 17(1), 98-110 (2010).Crossref, Medline, CAS, Google Scholar
19. Cancer Genome Atlas Research N, Brat DJ, Verhaak RG et al. Analisi genomica completa e integrativa dei gliomi diffusi di grado inferiore. N. Engl. J. Med. 372(26), 2481-2498 (2015).Crossref, Medline, Google Scholar

Savage Rose