Un sencillo enfoque in silico para generar perfiles de expresión génica a partir de subconjuntos de datos de genómica del cáncer

En la última década, los avances en las tecnologías genómicas han permitido identificar los mecanismos moleculares de los procesos biológicos y las enfermedades, impactando en todas las áreas de la investigación clínica, el cáncer en particular. La heterogeneidad intratumoral, los cambios dinámicos en el genoma de las células cancerosas y las aberraciones genéticas son huellas digitales únicas para cada tipo de cáncer . Estas características del cáncer, en combinación con las clasificaciones de subtipos pronósticos y la estratificación del riesgo, han demostrado que los perfiles de expresión génica permiten comprender mejor los antecedentes moleculares de, por ejemplo, el pronóstico y la sensibilidad terapéutica en el cáncer. Además, los perfiles de expresión génica son un potente enfoque molecular para predecir la sensibilidad a los fármacos.

Con el fin de generar catálogos de alteraciones genómicas en diferentes tipos de cáncer, se están desarrollando proyectos coordinados de genómica del cáncer a gran escala. Los dos proyectos principales son el Atlas del Genoma del Cáncer (TCGA) y el Consorcio Internacional del Genoma del Cáncer (ICGC) , que incluyen muchos centros que utilizan diferentes plataformas para proporcionar información genómica del cáncer, como la expresión génica, las mutaciones del ADN, la metilación del ADN, la expresión de proteínas y los datos clínicos. Estos proyectos proporcionan grandes cantidades de datos genómicos para ayudar a los investigadores a generar o probar nuevas hipótesis que, en última instancia, pueden ayudar al desarrollo de nuevas terapias contra el cáncer, métodos de diagnóstico y estrategias de prevención. Sin embargo, la exploración, la integración y el análisis de las grandes cantidades de datos complicados es un reto, especialmente para los científicos que carecen de formación en programación computacional o informática.

El uso eficaz de las grandes cantidades de datos del genoma del cáncer sigue siendo un reto debido a las limitaciones de las metodologías computacionales y a una orientación insuficiente. La visualización de los datos es muy útil para un análisis eficiente de los mismos y se han desarrollado herramientas avanzadas para facilitar la visualización de los datos, como los portales de acceso abierto cBioPortal, UCSC Cancer Browser y canEvolve (Tabla 1). Sin embargo, los portales de libre acceso facilitan principalmente la investigación de grandes conjuntos de datos y a veces son limitados a la hora de explorar los conjuntos de datos en mayor profundidad. Aquí describimos un método sencillo pero eficaz para investigar subconjuntos de muestras o pacientes con un interés genético, biológico o clínico específico. Nos centramos en el perfilado de la expresión génica y presentamos un método para el análisis de los datos de expresión génica en relación con la metilación del ADN y la expresión de proteínas (Tabla 2), que puede integrarse para probar hipótesis de investigación para tipos específicos de cáncer.

Tabla 2. Visión general de los diferentes datos genómicos del cáncer y tipo para la elaboración de perfiles.
Tipo genómico Datos
Expresión génica RNA-seq
ARN tumoral (microarray)
Metilación del ADN Metilación (HM27)
Expresión de proteínas Aspecto de la fase inversa (RPPA)fase inversa (RPPA)

Materiales &métodos

Protocolo para la elaboración de perfiles de expresión génica in silico

La elaboración de perfiles de expresión génica es una poderosa técnica para estudiar los procesos biológicos a nivel molecular. La actividad, o expresión, de los genes puede evaluarse mediante la identificación de proteínas, pero la expresión de los genes suele investigarse examinando el mensaje de ARN o el transcrito. Dos métodos de alto rendimiento que se utilizan habitualmente para la elaboración de perfiles completos de expresión génica son la secuenciación de ARN con secuenciación de próxima generación (NGS) y los microarrays de ADN.

En términos generales, hay dos tipos de enfoques de expresión génica en el cáncer: el análisis diferencial y el relativo. En el enfoque diferencial, se dilucidan los perfiles de expresión del tumor en relación con las muestras de tejido normal emparejadas o no emparejadas con el paciente, mientras que el enfoque relativo compara los niveles de transcripción entre tipos de tumores o muestras de células y tejidos. Dependiendo del enfoque específico, la elaboración de perfiles de expresión génica de muestras y especímenes puede aportar conocimientos no sólo biológicos, sino también detalles sobre la estructura, las alteraciones y las variaciones de los transcritos. Muchos portales de libre acceso facilitan herramientas para la exploración de datos de expresión génica. Nuestro protocolo se ilustra con la herramienta proporcionada por cBioPortal . Los otros portales de acceso abierto, como UCSC Cancer Browser y canEvolve, también pueden utilizarse para la exploración de datos genómicos. Proporcionamos un protocolo paso a paso con los siguientes capítulos (Protocolo Suplementario):

Vista general y selección del conjunto de datos de cáncer de interés (cBioPortal);

Creación de conjuntos/subconjuntos de casos de interés en un único estudio;

Análisis integral de genes en un único estudio. Tras definir el estudio de cáncer de interés en la sección 1 y crear subconjuntos de muestras/pacientes con datos clínicos o genéticos de interés en la sección 2. Esta sección clasifica cada gen en cada muestra y se utiliza para todo el análisis y visualización de datos genómicos;

Recogida de datos de expresión de genes y proteínas;

Recogida de datos de metilación;

Análisis de correlación. Para investigar la correlación entre la expresión génica y el estado de metilación o el nivel de proteínas, esta sección proporciona una herramienta para trazar la relación;

Visualización gráfica y análisis estadístico. Visualización y análisis de conjuntos de casos de datos de expresión de ARNm, metilación o expresión de proteínas recogidos en la sección 5, o datos de análisis de correlación de la sección 6.

Resultados &Discusión

Resultados representativos

Las mutaciones en el gen IDH1 son eventos ancestrales en la formación del glioma de bajo grado y del glioblastoma secundario . La presencia de una mutación en IDH1 (IDH1MUT) se asocia con una mayor supervivencia de los pacientes con glioma en comparación con los pacientes con IDH1 de tipo salvaje (IDH1WT) . Utilizando las posibilidades de resultados clínicos del cBioPortal, la supervivencia se ilustra en un gráfico de supervivencia global con una supervivencia aproximadamente seis veces mayor de los pacientes con glioma IDH1MUT en comparación con los pacientes con glioma IDH1WT (Figura 1).

Figura 1. Análisis representativo de las curvas de supervivencia global que comparan a los pacientes de glioma IDH1MUT e IDH1WT en la base de datos TCGA.

Para el análisis, se analizó la cohorte fusionada del estudio de glioma de bajo grado y glioblastoma multiforme (TCGA, Cell 2016), que incluía a 411 pacientes de glioma IDH1MUT frente a 401 IDH1WT. El gráfico de Kaplan-Meier de supervivencia global muestra una supervivencia aproximadamente seis veces mayor de los pacientes con glioma IDH1MUT (rojo) en comparación con los pacientes con glioma IDH1WT (azul).

IDH1MUT induce un recableado metabólico que no se comprende del todo, pero la exploración de las diferencias en los niveles de expresión de las enzimas metabólicas es un enfoque de investigación prometedor. Los efectos de IDH1MUT en la expresión de los genes que codifican para las enzimas metabólicas ofrecen una oportunidad para demostrar las posibilidades del cBioPortal para realizar la integración, exploración y análisis de datos. El TCGA ofrece datos de 112 muestras de glioma de bajo grado (LGG) IDH1WT frente a 399 IDH1MUT y 157 muestras de glioblastoma IDH1WT frente a nueve IDH1MUT para investigar e integrar para el análisis.

En el metabolismo de la glucosa, se seleccionaron los genes que codifican para las enzimas metabólicas que limitan la velocidad: GLUT1/3, HK1, HK2, HK3, PKLR, PKM2, LDHA y LDHB. En las muestras de pacientes de LGG y glioblastoma IDH1WT frente a IDH1MUT, se observaron mayores niveles de expresión génica para GLUT3, HK2, PKM2 y LDHA (Figura 2), lo que sugiere que el glioma IDH1WT depende más de la glucólisis para la producción de ATP que el glioma IDH1MUT.

Figura 2. Análisis representativo de los niveles de expresión de ARNm de las enzimas implicadas en el metabolismo de la glucosa en el glioma IDH1WT frente al IDH1MUT.

Análisis de muestras de glioma de bajo grado IDH1WT (n = 112) e IDH1MUT (n = 399) y de glioblastoma IDH1WT (n = 157) e IDH1MUT (n = 9), obtenidas del cBioPortal utilizando los conjuntos de datos de TCGA Brain Lower Grade Glioma (provisional) y Glioblastoma Multiforme (provisional). Se muestran los datos fusionados de los niveles relativos de expresión de ARNm para IDH1WT (azul) e IDH1MUT (rojo).

***p < 0,001; ****p < 0,0001.

G6PD: Glucosa-6-fosfato deshidrogenasa; GLUT: Transportador de glucosa; HK: Hexocinasa; LDH: Lactato deshidrogenasa; PK: Piruvato quinasa.

Como las mutaciones en IDH1/2 también se producen en el 20% de los pacientes con neoplasias mieloides, incluida la LMA, en la figura 3 se presenta un ejemplo de análisis de expresión de ARNm de los tres grupos, IDHWT, IDH1MUT e IDH2MUT. El estudio de la leucemia mieloide aguda (LMA; TCGA, Provisional) ofrece 136 muestras de LMA IDHWT, 16 IDH1MUT y 16 IDH2MUT para investigar los perfiles de expresión génica. En la Figura 3, los niveles de expresión del ARNm del gen ATM, una proteína de respuesta al daño del ADN, en las muestras de LMA IDHWT, IDH1MUT e IDH2MUT indican que la expresión del ARNm de ATM está muy disminuida en la LMA IDH1MUT.

Figura 3. Análisis representativo de los niveles de expresión de ARNm del gen ATM en muestras de leucemia mieloide aguda IDHWT, IDH1MUT e IDH2MUT.

Análisis de muestras de leucemia mieloide aguda IDHWT (n = 138), IDH1MUT (n = 16) e IDH2MUT (n = 16), obtenidas del cBioPortal utilizando los conjuntos de datos TCGA Leucemia mieloide aguda (provisional). Se muestran los datos de los niveles relativos de expresión de ARNm para IDHWT (azul), IDH1MUT (rojo) e IDH2MUT (verde).

**p < 0,01.

Otro ejemplo se ilustra en la Figura 4, que es un gráfico de la expresión génica frente a la metilación del ADN del gen LDHA en LGG. Los menores niveles de expresión de LDHA observados en el glioma IDH1MUT se asociaron con la hipermetilación de su promotor (Figura 4A), pero los menores niveles de expresión del gen LDHB en IDH1WT no se correlacionaron con la metilación (Figura 4B).

Figura 4. Análisis representativo de la correlación entre la expresión del ARNm y la metilación.

Planificación de la correlación de la expresión génica y la metilación del ADN del gen (A)LDHA y del gen (B)LDHB en el glioma de bajo grado (Brain Lower Grade Glioma, provisional) según el estado de IDH1MUT (azul: IDH1WT, rojo: IDH1MUT).

Para investigar si los niveles de expresión génica se correlacionan con la abundancia de proteínas, se muestra un ejemplo ilustrativo en la Figura 5. En el glioma IDH1MUT se observaron menores niveles de expresión génica de la G6PD en comparación con el glioma IDH1WT (Figura 5A), mientras que los niveles de proteína de la G6PD eran iguales en el LGG IDH1MUT e IDH1WT (Figura 5B), lo que sugiere la existencia de mecanismos postraduccionales adicionales.

Figura 5. Análisis representativo de la correlación entre la expresión del ARNm y la abundancia de la proteína.

(A) Análisis de los niveles de expresión génica de la G6PD en el glioma de bajo grado (LGG) en correlación con (B) la abundancia de la proteína de la G6PD según el estado de IDH1MUT (azul: IDH1WT, rojo: IDH1MUT). (C) Gráfico de la correlación de la expresión génica y la abundancia proteica.

****p < 0,0001.

LGG: Glioma de bajo grado; ns: No significativo.

La innovación constante ha ayudado en gran medida a la expansión de nuestra comprensión del cáncer, pero también ha transformado la investigación del cáncer en uno de los campos de la biología que más datos requiere. Los proyectos de genómica del cáncer bien estructurados y organizados están ofreciendo a los investigadores enormes cantidades de muestras de tumores que se preparan, normalizan y procesan de forma similar para el análisis computacional con el fin de ampliar nuestra comprensión de la genética del cáncer. El protocolo que aquí se enumera, en combinación con las herramientas de acceso abierto, reduce las barreras de acceso a estos datos complejos y ofrece una minería de datos más profunda para acelerar la traducción de los datos genómicos en nuevos conocimientos biológicos y clínicos.

El proyecto de genómica del cáncer de glioma fue uno de los primeros proyectos del TCGA que proporcionó datos bien estructurados de muestras tumorales procedentes de múltiples plataformas. El análisis genómico de estos datos identificó subtipos clínicamente relevantes de glioblastoma y delineó tres clases moleculares diferentes en el glioma de bajo grado, incluyendo la clase con la mutación IDH . Los portales de acceso abierto facilitan el acceso a estos conjuntos de datos, pero se limitan a investigar grupos específicos. El protocolo que se aborda en este trabajo describe un método sencillo para investigar subconjuntos de muestras o pacientes con un interés genético, biológico o clínico específico, como las muestras tumorales con una mutación IDH. En segundo lugar, el protocolo describe cómo generar perfiles de expresión de los genes implicados en una vía o proceso concreto, como el metabolismo, en este subconjunto particular de muestras. Esto permite la selección de genes individuales de interés en lugar de explorar todos los genes, y clasifica cada gen en cada muestra que se utiliza para el análisis y la visualización. Finalmente, se proporciona un análisis multidimensional para investigar la expresión de los genes en relación con la metilación del ADN y la expresión de las proteínas.

Comparado con otras herramientas disponibles, este protocolo utiliza herramientas de interfaz web que no requieren software adicional. Un paso crítico en el protocolo es la selección del estudio o proyecto de genómica del cáncer correcto que contiene los datos de interés. Actualmente, muchos portales almacenan datos de conjuntos de datos de la literatura y del portal TCGA. Como ejemplo, cBioPortal proporciona actualmente 76 proyectos de genómica del cáncer de expresión génica (RNAseq y microarray) en combinación con 21 proyectos de metilación y 41 de expresión de proteínas. La validez de la comparación de los datos genómicos depende de lo bien que se ajuste una muestra a la referencia en términos de sesgos técnicos (por ejemplo, tipo de procesamiento de datos) y biológicos (por ejemplo, subtipo molecular). Por lo tanto, el uso de portales que proporcionan datos genómicos de proyectos genómicos de cáncer bien estructurados no requiere técnicas de normalización avanzadas ni correcciones por lotes.

En resumen, nuestro método permite la importación e integración de un subconjunto selectivo de muestras con interés genómico, biológico o clínico específico, como alteración genómica, mutación, subtipos de cáncer o propiedades de supervivencia. Este método contiene un concepto único para generar perfiles de expresión génica y para cruzar estos perfiles con la metilación del ADN y la expresión de proteínas, que pueden integrarse para probar hipótesis de investigación en subtipos específicos de cáncer.

Perspectiva de futuro

La investigación del cáncer ha evolucionado hasta convertirse en una de las disciplinas con más datos de la biología. El proyecto Genomics Evidence Neoplasia Information Exchange (GENIE) es uno de los mayores conjuntos de datos genómicos sobre el cáncer totalmente públicos publicados hasta la fecha. Los portales de fácil manejo, como cBioPortal, desempeñarán un papel cada vez más esencial en esta disciplina.

Contribuciones de los autores

MK diseñó y realizó la investigación, RJM y CJFvN supervisaron el estudio, MK y CJFvN redactaron el manuscrito, todos los autores leyeron y aprobaron la versión final del manuscrito

Declaración de intereses competitivos

Esta investigación fue apoyada por la Sociedad Holandesa del Cáncer (KWF subvenciones UVA 2014-6839 y AMC 2016.1-10460). Los autores no tienen otras afiliaciones relevantes o participación financiera con cualquier organización o entidad con un interés financiero o conflicto financiero con el tema o los materiales discutidos en el manuscrito aparte de los revelados.

No se utilizó asistencia de escritura en la producción de este manuscrito.

  • 1. Hanahan D, Weinberg RA. The hallmarks of cancer. Cell 100(1), 57-70 (2000).Crossref, Medline, CAS, Google Scholar
  • 2. Chang JC, Wooten EC, Tsimelzon A et al. Gene expression profiling for the prediction of therapeutic response to docetaxel in patients with breast cancer. Lancet 362(9381), 362-369 (2003).Crossref, Medline, CAS, Google Scholar
  • 3. Byron SA, Van Keuren-Jensen KR, Engelthaler DM, Carpten JD, Craig DW. Translating RNA sequencing into clinical diagnostics: opportunities and challenges. Nat. Rev. Genet. 17(5), 257-271 (2016).Crossref, Medline, CAS, Google Scholar
  • 4. International Cancer Genome C, Hudson TJ, Anderson W et al. Red internacional de proyectos del genoma del cáncer. Nature 464(7291), 993-998 (2010).Crossref, Medline, Google Scholar
  • 5. Chin L, Andersen JN, Futreal PA. Genómica del cáncer: de la ciencia del descubrimiento a la medicina personalizada. Nat. Med. 17(3), 297-303 (2011).Crossref, Medline, CAS, Google Scholar
  • 6. Weeraratna AT, Nagel JE, De Mello-Coelho V, Taub DD. Gene expression profiling: from microarrays to medicine. J. Clin. Immunol. 24(3), 213-224 (2004).Crossref, Medline, CAS, Google Scholar
  • 7. Johnson JM, Castle J, Garrett-Engele P et al. Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays. Science 302(5653), 2141-2144 (2003).Crossref, Medline, CAS, Google Scholar
  • 8. Trapnell C, Williams BA, Pertea G et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat. Biotechnol. 28(5), 511-515 (2010).Crossref, Medline, CAS, Google Scholar
  • 9. Gao J, Aksoy BA, Dogrusoz U et al. Integrative analysis of complex cancer genomics and clinical profiles using the cBioPortal. Sci. Signal 6(269), pl1 (2013).Crossref, Medline, Google Scholar
  • 10. Cerami E, Gao J, Dogrusoz U et al. The cBio cancer genomics portal: an open platform for exploring multidimensional cancer genomics data. Cancer Discov. 2(5), 401-404 (2012).Crossref, Medline, Google Scholar
  • 11. Parsons DW, Jones S, Zhang X et al. Un análisis genómico integrado del glioblastoma multiforme humano. Science 321(5897), 1807-1812 (2008).Crossref, Medline, CAS, Google Scholar
  • 12. Balss J, Meyer J, Mueller W, Korshunov A, Hartmann C, Von Deimling A. Analysis of the IDH1 codon 132 mutation in brain tumors. Acta Neuropathol 116(6), 597-602 (2008).Crossref, Medline, CAS, Google Scholar
  • 13. Bleeker FE, Atai NA, Lamba S et al. La mutación pronóstica IDH1(R132) se asocia con una actividad IDH dependiente de NADP+ reducida en el glioblastoma. Acta Neuropathol. 119(4), 487-494 (2010).Crossref, Medline, CAS, Google Scholar
  • 14. Khurshed M, Molenaar RJ, Lenting K, Leenders WP, Van Noorden CJF. In silico gene expression analysis reveals glycolysis and acetate anaplerosis in IDH1 wild-type glioma and lactate and glutamate anaplerosis in IDH1-mutated glioma. Oncotarget 8(30), 49165-49177 (2017).Crossref, Medline, Google Scholar
  • 15. Khurshed M, Aarnoudse N, Hulsbos R et al. Las células cancerosas con mutación IDH1 son sensibles al cisplatino y un inhibidor de la mutación IDH1 contrarresta esta sensibilidad. FASEB J. 32, 6344-6352 (2018).Crossref, Google Scholar
  • 16. Molenaar RJ, Radivoyevitch T, Nagata Y et al. Las mutaciones de IDH1/2 sensibilizan a la leucemia mieloide aguda a la inhibición de PARP y esto se revierte con inhibidores de IDH1/2-mutantes. Clin. Cancer Res. 24(7), 1705-1715 (2018).Crossref, Medline, CAS, Google Scholar
  • 17. Frederiks WM, Bosch KS, De Jong JS, Van Noorden CJ. Regulación postraduccional de la actividad de la glucosa-6-fosfato deshidrogenasa en lesiones (pre)neoplásicas en el hígado de rata. J. Histochem. Cytochem. 51(1), 105-112 (2003).Crossref, Medline, CAS, Google Scholar
  • 18. Verhaak RG, Hoadley KA, Purdom E et al. Integrated genomic analysis identifies clinically relevant subtypes of glioblastoma characterized by abnormalities in PDGFRA, IDH1, EGFR, and NF1. Cancer Cell 17(1), 98-110 (2010).Crossref, Medline, CAS, Google Scholar
  • 19. Cancer Genome Atlas Research N, Brat DJ, Verhaak RG et al. Comprehensive, integrative genomic analysis of diffuse lower-grade gliomas. N. Engl. J. Med. 372(26), 2481-2498 (2015).Crossref, Medline, Google Scholar