Uma abordagem simples em silico para gerar perfis de expressão gênica a partir de subconjuntos de dados genômicos do câncer

Na última década, os avanços nas tecnologias do genoma permitiram a identificação de mecanismos moleculares de processos biológicos e doenças, impactando todas as áreas de pesquisa clínica, em particular o câncer. A heterogeneidade intratumoral, as mudanças dinâmicas no genoma das células cancerosas e as aberrações genéticas são impressões digitais únicas para cada tipo de câncer. Estas características do câncer, em combinação com classificações de subtipos prognósticos e estratificação de risco, têm demonstrado que o perfil de expressão de genes permite uma melhor compreensão dos antecedentes moleculares de, por exemplo, prognóstico e sensibilidade terapêutica no câncer. Além disso, o perfil de expressão gênica é uma abordagem molecular poderosa para prever a sensibilidade a drogas .

A fim de gerar catálogos de alterações genômicas em diferentes tipos de câncer, estão sendo desenvolvidos projetos genômicos coordenados em grande escala. Os dois principais projetos são o Atlas do Genoma do Câncer (TCGA) e o International Cancer Genome Consortium (ICGC) , incluindo muitos centros que utilizam diferentes plataformas para fornecer informações genômicas sobre o câncer, como expressão gênica, mutações de DNA, metilação de DNA, expressão de proteínas e dados clínicos. Estes projectos fornecem grandes quantidades de dados genómicos para ajudar os investigadores a gerar ou testar novas hipóteses que podem, em última análise, ajudar no desenvolvimento de novas terapias oncológicas, métodos de diagnóstico e estratégias preventivas. Contudo, a exploração, integração e análise das grandes quantidades de dados complicados é um desafio, especialmente para cientistas sem experiência em programação computacional ou informática.

O uso eficaz das grandes quantidades de dados do genoma do cancro continua a ser um desafio devido às limitações das metodologias computacionais e à orientação insuficiente. A visualização dos dados é muito útil para a análise eficiente dos dados e foram desenvolvidas ferramentas avançadas para facilitar a visualização dos dados, como os portais de acesso aberto cBioPortal, UCSC Cancer Browser e canEvolve (Tabela 1). No entanto, os portais de acesso aberto facilitam principalmente a investigação de grandes conjuntos de dados e, às vezes, são limitados ao explorar os conjuntos de dados com mais profundidade. Aqui, descrevemos um método simples mas eficaz para investigar subconjuntos de amostras ou pacientes com um interesse genético, biológico ou clínico específico. Focamos na caracterização da expressão gênica e apresentamos um método para a análise de dados de expressão gênica em relação à metilação de DNA e expressão de proteínas (Tabela 2), que pode ser integrado para testar hipóteses de pesquisa para tipos específicos de câncer.

>

Tabela 2. Visão geral dos diferentes dados genómicos do cancro e tipo de perfil.
Tipo genómico Dados
Expressão do gene RNA-seq
RNA do tumor (microarray)
Metilação do ADN Metilação (HM27)
Expressão da proteína Reversa-phase protein array (RPPA)

Materiais & métodos

Protocolo para perfis de expressão de genes em silico

Perfil de expressão de genes é uma técnica poderosa para o estudo de processos biológicos a nível molecular. A atividade gênica, ou expressão, pode ser avaliada pela identificação da proteína, mas a expressão gênica é normalmente investigada pelo exame da mensagem ou transcrição do RNA. Dois métodos de alto rendimento que são comumente usados para o perfil de expressão gênica abrangente são o seqüenciamento de RNA com seqüenciamento de próxima geração (NGS) e microarrays de DNA .

Em termos gerais, há dois tipos de abordagens de expressão gênica no câncer: o diferencial e a análise relativa. Na abordagem diferencial, são elucidados os perfis de expressão tumoral em relação às amostras de tecido normal do paciente ou não, enquanto a abordagem relativa compara os níveis de transcrição entre os tipos de tumor ou amostras de células e tecidos. Dependendo da abordagem específica, o perfil de expressão gênica de amostras e espécimes pode fornecer insights não apenas em biologia, mas também fornecer detalhes sobre a estrutura, alterações e variações das transcrições. Muitos portais de acesso aberto facilitam ferramentas para a exploração de dados de expressão de genes. Nosso protocolo é ilustrado com a ferramenta fornecida pelo cBioPortal . Os outros portais de acesso aberto como o UCSC Cancer Browser e o canEvolve também podem ser usados para a exploração de dados genômicos. Nós fornecemos um protocolo passo a passo com os próximos capítulos (Protocolo Suplementar):

Overvisão e seleção do conjunto de dados de interesse sobre câncer (cBioPortal);

Criação de conjuntos/subsets de casos de interesse num único estudo;

Análise integrativa de genes num único estudo. Após definir o estudo do câncer de interesse na seção 1 e criar subgrupos de amostras/pacientes com dados clínicos ou genéticos de interesse na seção 2. Esta secção classifica cada gene em cada amostra e é utilizada para toda a análise e visualização de dados genómicos;

Recolha de dados de expressão de genes e expressão de proteínas;

Recolha de dados de metilação;

Análise da correlação. A fim de investigar a correlação entre a expressão gênica e o estado de metilação ou nível de proteína, esta seção fornece uma ferramenta para traçar a relação;

Visualização gráfica e análise estatística. Visualização e análise de conjuntos de casos de expressão de mRNA, metilação ou dados de expressão de proteínas coletados na seção 5, ou dados de análise de correlação da seção 6.

Resultados & discussão

Resultados representativos

Mutações no gene IDH1 são eventos ancestrais na formação de glioma de baixo grau e glioblastoma secundário. A presença de uma mutação do IDH1 (IDH1MUT) está associada à sobrevida prolongada de pacientes com glioma em comparação com pacientes do tipo selvagem do IDH1 (IDH1WT) . Utilizando as possibilidades de desfecho clínico do cBioPortal, a sobrevida é ilustrada em um gráfico de sobrevida geral com aproximadamente seis vezes a sobrevida prolongada de pacientes com glioma IDH1MUT em comparação com pacientes com glioma IDH1WT (Figura 1).

Figure 1. Análise representativa das curvas de sobrevivência global comparando pacientes com glioma IDH1MUT e IDH1WT no banco de dados TCGA.

Para análise, foi analisada a coorte combinada de glioma de baixo grau e glioblastoma multiforme (TCGA, Cell 2016), incluindo 411 pacientes com glioma IDH1MUT versus 401 pacientes com glioma IDH1WT. O gráfico de Kaplan-Meier mostra aproximadamente seis vezes a sobrevida prolongada dos pacientes com glioma IDH1MUT (vermelho) comparado com os pacientes com glioma IDH1WT (azul).

>

IDH1MUT induz uma recabeamento metabólico que não é totalmente compreendido, mas a exploração das diferenças nos níveis de expressão das enzimas metabólicas é uma abordagem investigativa promissora. Os efeitos do IDH1MUT na expressão dos genes que codificam as enzimas metabólicas oferecem uma oportunidade de demonstrar as possibilidades do cBioPortal para realizar a integração, exploração e análise dos dados. O TCGA oferece dados de 112 amostras de glioblastoma IDH1WT versus 399 amostras de glioma de baixo grau IDH1MUT (LGG) e 157 amostras de glioblastoma IDH1WT versus nove amostras de glioblastoma IDH1MUT para investigar e integrar para análise.

No metabolismo da glicose, foram selecionados genes que codificam para enzimas metabólicas limitadoras de taxa: GLUT1/3, HK1, HK2, HK3, PKLR, PKM2, LDHA e LDHB. Em amostras de pacientes IDH1WT versus IDH1MUT LGG e glioblastoma, foram observados níveis mais altos de expressão gênica para GLUT3, HK2, PKM2 e LDHA (Figura 2), sugerindo que o glioma IDH1WT depende mais da glicólise para produção de ATP do que o glioma IDH1MUT.

Figure 2. Análise representativa dos níveis de expressão do mRNA das enzimas envolvidas no metabolismo da glicose no glioma IDH1WT versus o IDH1MUT.

Análise do IDH1WT (n = 112) e IDH1MUT (n = 399) glioma de baixo grau e IDH1WT (n = 157) e IDH1MUT (n = 9) amostras de glioblastoma, obtidas do cBioPortal utilizando os conjuntos de dados TCGA Glioma Cerebral de Grau Inferior (provisório) e Glioblastoma Multiforme (provisório). Os dados fundidos dos níveis de expressão relativos do mRNA são mostrados para IDH1WT (azul) e IDH1MUT (vermelho).

****p < 0,001; ****p < 0,0001.

G6PD: Glucose-6-fosfato desidrogenase; GLUT: Transportador de glicose; HK: Hexokinase; LDH: Lactato desidrogenase; PK: Pyruvate kinase.

As mutações no IDH1/2 também ocorrem em 20% dos pacientes com neoplasias mieloides, incluindo AML, um exemplo de análise da expressão do mRNA dos três grupos, IDHWT, IDH1MUT e IDH2MUT é apresentado na Figura 3. O estudo da leucemia mielóide aguda (LMA; TCGA, Provisório) oferece 136 amostras do IDHWT, 16 do IDH1MUT e 16 do IDH2MUT AML para investigar perfis de expressão gênica. Na Figura 3, os níveis de expressão de mRNA do gene da ATM, uma proteína que responde ao dano do DNA, em amostras de LMA IDHWT, IDH1MUT e IDH2MUT indicam que a expressão do mRNA da ATM está severamente diminuída no IDH1MUT AML.

Figure 3. Análise representativa dos níveis de expressão do mRNA do gene ATM em amostras de leucemia mielóide aguda IDHWT, IDH1MUT e IDH2MUT.

Análise de leucemia mielóide aguda IDHWT (n = 138), IDH1MUT (n = 16) e IDH2MUT (n = 16), obtida do cBioPortal usando os conjuntos de dados TCGA Leucemia Mielóide Aguda (provisória). Dados de níveis relativos de expressão de mRNA são mostrados para IDHWT (azul), IDH1MUT (vermelho) e IDH2MUT (verde).

**p < 0.01.

Outro exemplo é ilustrado na Figura 4, que é um gráfico de expressão do gene versus a metilação do DNA do gene LDHA no LGG. Níveis mais baixos de expressão do LDHA como observado no glioma IDH1MUT foram associados à hipermetilação do seu promotor (Figura 4A), mas níveis mais baixos de expressão do gene LDHB no IDH1WT não se correlacionaram com a metilação (Figura 4B).

Figure 4. Análise representativa da correlação entre expressão do mRNA e metilação.

Plot de correlação entre expressão gênica e metilação do DNA do gene (A)LDHA e do gene (B)LDHB em glioma de baixo grau (Glioma de Grau Cerebral Inferior, provisório) de acordo com o status IDH1MUT (azul: IDH1WT, vermelho: IDH1MUT).

Para investigar se os níveis de expressão gênica se correlacionam com a abundância de proteínas, um exemplo ilustrativo é demonstrado na Figura 5. No glioma IDH1MUT, foram observados menores níveis de expressão gênica de G6PD comparados com o glioma IDH1WT (Figura 5A), enquanto os níveis de proteína de G6PD foram iguais no IDH1MUT e IDH1WT LGG (Figura 5B), sugerindo mecanismos pós-tradução adicionais no trabalho .

Figure 5. Análise representativa da correlação entre expressão de mRNA e abundância de proteínas.

(A) Análise dos níveis de expressão gênica de G6PD em glioma de baixo grau (LGG) em correlação com (B) abundância protéica de G6PD de acordo com o status IDH1MUT (azul: IDH1WT, vermelho: IDH1MUT). (C) Gráfico de correlação da expressão gênica e abundância protéica.

****p < 0.0001.

LGG: glioma de baixo grau; ns: Não significativo.

A inovação constante tem ajudado muito na expansão da nossa compreensão do cancro, mas também transformou a pesquisa do cancro num dos campos da biologia mais intensivos em dados. Projetos bem estruturados e organizados de genômica do câncer estão oferecendo aos pesquisadores enormes quantidades de amostras tumorais que são igualmente preparadas, normalizadas e processadas para análise computacional a fim de ampliar nosso entendimento da genética do câncer. O protocolo aqui listado em combinação com ferramentas de acesso aberto diminui as barreiras de acesso a esses dados complexos e oferece mineração de dados mais profunda para acelerar a tradução de dados genômicos em novos insights biológicos e clínicos.

O projeto de genômica do câncer de glioma foi um dos primeiros projetos do TCGA que forneceu dados bem estruturados de amostras tumorais de múltiplas plataformas. A análise genômica destes dados identificou subtipos clinicamente relevantes de glioblastoma e delineou três classes moleculares diferentes em glioma de baixo grau, incluindo a classe com a mutação IDH . Portais de acesso aberto facilitam o acesso a esses conjuntos de dados, mas são limitados na investigação de grupos específicos. O protocolo abordado neste trabalho descreve um método simples para investigar subconjuntos de amostras ou pacientes com um interesse genético, biológico ou clínico específico, como as amostras tumorais com uma mutação IDH. Em segundo lugar, o protocolo descreve como gerar perfis de expressão de genes envolvidos em uma determinada via ou processo, como o metabolismo, neste subconjunto de amostras em particular. Isto permite selecionar genes individuais de interesse ao invés de explorar todos os genes, e classifica cada gene em cada amostra que é usada para análise e visualização. Finalmente, a análise multidimensional é fornecida para investigar a expressão gênica em relação à metilação do DNA e expressão da proteína.

Comparável a outras ferramentas disponíveis, este protocolo utiliza ferramentas de interface web que não requerem software adicional. Um passo crítico no protocolo é a seleção do estudo ou projeto genômico correto do câncer que contém os dados de interesse. Atualmente, muitos portais armazenam dados de conjuntos de dados da literatura e do portal TCGA. Como exemplo, o cBioPortal fornece atualmente 76 projetos de expressão gênica do câncer (RNAseq e microarray) em combinação com 21 projetos de metilação e 41 projetos de expressão de proteínas. A validade da comparação de dados genômicos depende de quão bem uma amostra é comparada com a referência em termos de vieses técnicos (por exemplo, tipo de processamento de dados) e biológicos (por exemplo, subtipos moleculares). Portanto, usando portais que fornecem dados genômicos de projetos genômicos de câncer bem estruturados não requer técnicas avançadas de normalização e correções de lotes.

Em resumo, nosso método permite a importação e integração de um subconjunto seletivo de amostras com interesse genômico, biológico ou clínico específico, tais como alteração genômica, mutação, subtipos de câncer ou propriedades de sobrevivência. Este método contém um conceito único para gerar perfis de expressão gênica e para cruzar esses perfis com a metilação do DNA e expressão de proteínas, que pode ser integrado para testar hipóteses de pesquisa em subtipos específicos de câncer.

Perspectiva futura

A pesquisa com câncer evoluiu para uma das disciplinas mais intensivas em dados em biologia. Com o projeto Genomics Evidence Neoplasia Information Exchange (GENIE) entre os maiores conjuntos de dados genômicos totalmente públicos sobre câncer lançados até o momento. Portais fáceis de administrar, como o cBioPortal, desempenharão um papel cada vez mais essencial nesta disciplina.

Contribuições dos autores

MK desenhou e realizou a pesquisa, RJM e CJFvN supervisionaram o estudo, MK e CJFvN escreveram o manuscrito, todos os autores leram e aprovaram a versão final do manuscrito

Financeiro &Divulgação de interesses concorrentes

Esta pesquisa foi apoiada pela Sociedade Holandesa do Câncer (KWF concede bolsas UVA 2014-6839 e AMC 2016.1-10460). Os autores não têm outras afiliações relevantes ou envolvimento financeiro com qualquer organização ou entidade com interesse financeiro ou conflito financeiro com o assunto ou materiais discutidos no manuscrito, além daqueles divulgados.

Nenhuma assistência por escrito foi utilizada na produção deste manuscrito.

  • 1. Hanahan D, Weinberg RA. As marcas do cancro. Cell 100(1), 57-70 (2000).Crossref, Medline, CAS, Google Scholar
  • 2. Chang JC, Wooten EC, Tsimelzon A et al. Gene expression profiling for the prediction of therapeutic response to docetaxel in patients with breast cancer. Lancet 362(9381), 362-369 (2003).Crossref, Medline, CAS, Google Scholar
  • 3. Byron SA, Van Keuren-Jensen KR, Engelthaler DM, Carpten JD, Craig DW. Traduzindo a sequência de RNA em diagnósticos clínicos: oportunidades e desafios. Nat. Rev. Genet. 17(5), 257-271 (2016).Crossref, Medline, CAS, Google Scholar
  • 4. International Cancer Genome C, Hudson TJ, Anderson W et al. International network of cancer genome projects. Nature 464(7291), 993-998 (2010).Crossref, Medline, Google Scholar
  • 5. Chin L, Andersen JN, Futreal PA. Genômica do câncer: da ciência da descoberta à medicina personalizada. Nat. Med. 17(3), 297-303 (2011).Crossref, Medline, CAS, Google Scholar
  • 6. Weeraratna AT, Nagel JE, De Mello-Coelho V, Taub DD. Perfil de expressão gênica: de microarrays a medicina. J. Clin. Immunol. 24(3), 213-224 (2004).Crossref, Medline, CAS, Google Scholar
  • 7. Johnson JM, Castle J, Garrett-Engele P et al. Genome-wide survey of human alternative pre-mRNA splicing with exon junction microarrays. Science 302(5653), 2141-2144 (2003).Crossref, Medline, CAS, Google Scholar
  • 8. Trapnell C, Williams BA, Pertea G et al. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. Nat. Biotechnol. 28(5), 511-515 (2010).Crossref, Medline, CAS, Google Scholar
  • 9. Gao J, Aksoy BA, Dogrusoz U et al. Análise integrativa da genômica complexa do câncer e perfis clínicos usando o cBioPortal. Sci. Signal 6(269), pl1 (2013).Crossref, Medline, Google Scholar
  • 10. Cerami E, Gao J, Dogrusoz U et al. The cBio cancer genomics portal: an open platform for exploring multidimensional cancer genomics data. O Discov. do Câncer. 2(5), 401-404 (2012).Crossref, Medline, Google Scholar
  • 11. Parsons DW, Jones S, Zhang X et al. Uma análise genómica integrada do glioblastoma humano multiforme. Science 321(5897), 1807-1812 (2008).Crossref, Medline, CAS, Google Scholar
  • 12. Balss J, Meyer J, Mueller W, Korshunov A, Hartmann C, Von Deimling A. Análise da mutação do códon IDH1 132 em tumores cerebrais. Acta Neuropathol 116(6), 597-602 (2008).Crossref, Medline, CAS, Google Scholar
  • 13. Bleeker FE, Atai NA, Lamba S et al. O prognóstico da mutação IDH1(R132) está associado à redução da atividade do IDH dependente de NADP+ no glioblastoma. Acta Neuropathol. 119(4), 487-494 (2010).Crossref, Medline, CAS, Google Scholar
  • 14. Khurshed M, Molenaar RJ, Lenting K, Leenders WP, Van Noorden CJF. Na análise da expressão do gene silico revela glicólise e anaplerose de acetato no glioma do tipo selvagem IDH1 e anaplerose de lactato e glutamato no glioma mutado IDH1. Oncotarget 8(30), 49165-49177 (2017).Crossref, Medline, Google Scholar
  • 15. Khurshed M, Aarnoudse N, Hulsbos R et al. As células cancerígenas mutantes IDH1 são sensíveis à cisplatina e um inibidor do IDH1-mutante neutraliza esta sensibilidade. FASEB J. 32, 6344-6352 (2018).Crossref, Google Scholar
  • 16. Molenaar RJ, Radivoyevitch T, Nagata Y et al. As mutações IDH1/2 sensibilizam a leucemia mielóide aguda à inibição de PARP e esta é revertida pelos inibidores do IDH1/2-mutante. Clin. Cancer Res. 24(7), 1705-1715 (2018).Crossref, Medline, CAS, Google Scholar
  • 17. Frederiks WM, Bosch KS, De Jong JS, Van Noorden CJ. Regulação pós-tradução da atividade glucose-6-fosfato desidrogenase em lesões (pré)neoplásicas no fígado de ratos. J. Histochem. Cytochem. 51(1), 105-112 (2003). Crossref, Medline, CAS, Google Scholar
  • 18. Verhaak RG, Hoadley KA, Purdom E et al. A análise genômica integrada identifica subtipos clinicamente relevantes de glioblastoma caracterizados por anormalidades no PDGFRA, IDH1, EGFR, e NF1. Cancer Cell 17(1), 98-110 (2010).Crossref, Medline, CAS, Google Scholar
  • 19. Cancer Genome Atlas Research N, Brat DJ, Verhaak RG et al. Análise genômica abrangente e integrativa de gliomas difusos de grau inferior. N. Engl. J. Med. 372(26), 2481-2498 (2015). Crossref, Medline, Google Scholar