Pesquisadores criaram um modelo de inteligência artificial que consegue identificar quais mutações em proteínas humanas têm maior probabilidade de causar doenças, mesmo quando essas mutações nunca foram vistas antes em nenhuma pessoa.
O modelo, chamado popEVE, foi criado usando dados de centenas de milhares de espécies diferentes e da variação genética em toda a população humana. O vasto registro evolutivo permite que a ferramenta identifique quais partes de cada uma das aproximadamente 20.000 proteínas humanas são essenciais para a vida e quais podem tolerar mudanças.
Isso permite que o popEVE não apenas identifique mutações causadoras de doenças, mas também classifique a gravidade delas em todo o corpo. As descobertas, publicadas na Nature Genetics por pesquisadores da Harvard Medical School e do Center for Genomic Regulation (CRG) em Barcelona, podem transformar a forma como os médicos diagnosticam doenças genéticas.
Uma em cada duas pessoas com uma doença rara nunca recebe um diagnóstico claro. O popEVE pode mudar isso, ajudando os médicos a se concentrarem primeiro nas variantes mais prejudiciais. Outro benefício é que ele pode funcionar apenas com as informações genéticas do paciente. Isso tem implicações importantes para a medicina de doenças raras em sistemas de saúde com recursos limitados, tornando os diagnósticos mais rápidos, simples e baratos do que antes.
"As clínicas nem sempre têm acesso ao DNA dos pais e muitos pacientes vêm sozinhos. O popEVE pode ajudar esses médicos a identificar mutações causadoras de doenças, e já estamos vendo isso em colaborações com clínicas", disse a Dra. Mafalda Dias, coautora correspondente do estudo e pesquisadora do Center for Genomic Regulation.
| Entendendo as mutações genéticas e seu impacto |
O genoma de cada indivíduo contém muitas pequenas diferenças que os tornam únicos. Isso inclui mutações missense, alterações que alteram um aminoácido em uma proteína. Muitas são inofensivas, mas algumas causam condições ou distúrbios graves. O desafio é descobrir quais são benignas e quais são prejudiciais.
No entanto, nem todas as mutações são igualmente prejudiciais. Algumas causam sintomas leves, outras deficiência grave e algumas são fatais. Muitas ferramentas de IA existem para prever se uma mutação é perigosa ou não, mas não oferecem uma escala móvel desse comportamento.
Para condições "tão raras quanto uma", não há históricos de casos para consultar. Mesmo que toda a população mundial fosse sequenciada, as mutações desses pacientes seriam completamente novas. Os métodos tradicionais que dependem da identificação de padrões em grupos de pacientes ou em grandes grupos não podem ajudar nesses casos únicos.
| Como a evolução informa o modelo popEVE |
É por isso que uma equipe liderada por Debora Marks na Harvard Medical School e Jonathan Frazer e Dias no Center for Genomic Regulation (CRG) se voltou para a evolução.
Ao longo de bilhões de anos, a evolução na Terra já executou inúmeros experimentos, testando quais mudanças uma proteína pode tolerar e quais são prejudiciais para sobreviver. Modelos computacionais podem aprender quais posições de aminoácidos são críticas para a vida, comparando sequências de proteínas em muitas espécies diferentes.
Essa foi a ideia por trás do EVE (Modelo Evolucionário do Efeito da Variante), um algoritmo lançado pelos pesquisadores em 2021. Ele usou padrões evolutivos para classificar mutações em genes de doenças humanas como benignas ou prejudiciais. O EVE teve um desempenho tão bom ou melhor do que muitos experimentos baseados em laboratório e, desde então, tem sido usado em genética clínica para ajudar a interpretar variantes incertas.
Mas, embora o EVE pudesse avaliar o impacto das mutações dentro de um gene, suas pontuações não eram diretamente comparáveis entre os genes. Uma variante que parecia grave em uma proteína não podia ser comparada de forma justa com uma variante em outra. Esse é um problema porque os médicos precisam saber qual mutação no genoma de um paciente é a mais prejudicial.
| Avanços e validação do popEVE |
O modelo mais recente da família EVE, o popEVE, resolve esse problema combinando dados evolutivos com informações do UK Biobank e do gnomAD, dois vastos repositórios. Esses conjuntos de dados mostram quais variantes estão presentes em pessoas saudáveis, ajudando o modelo a calibrar suas previsões para humanos.
O resultado é o primeiro modelo que pode classificar de forma significativa as mutações em todo o proteoma humano, o conjunto completo de aproximadamente 20.000 proteínas codificadas no genoma humano. Uma mutação no gene A agora pode ser comparada diretamente com uma no gene B na mesma escala de gravidade. Isso permite que os médicos, pela primeira vez, se concentrem primeiro nas variantes potencialmente mais prejudiciais.
Para validar o popEVE, os pesquisadores analisaram dados genéticos de mais de 31.000 famílias com crianças afetadas por distúrbios graves do desenvolvimento. Em 98% dos casos em que uma mutação causal já havia sido identificada, o popEVE classificou corretamente essa variante como a mais prejudicial no genoma da criança. Ele superou concorrentes de última geração, como o AlphaMissense do DeepMind.
Quando os pesquisadores procuraram novos genes candidatos a doenças, o popEVE descobriu 123 que nunca haviam sido associados a distúrbios do desenvolvimento. Muitos são ativos no cérebro em desenvolvimento e interagem fisicamente com proteínas de doenças conhecidas: 104 deles foram observados em apenas um ou dois pacientes.
| Abordando o viés e as limitações em ferramentas genéticas |
Uma das vantagens do popEVE é que ele evita penalizar pessoas cuja ancestralidade é sub-representada em bancos de dados genéticos, que são predominantemente enviesados para pessoas de ascendência europeia. Este é um problema em outras ferramentas que sinalizam possíveis mutações causadoras de doenças simplesmente porque essas variantes não foram vistas antes.
O popEVE evita isso tratando todas as variantes humanas igualmente. Ao perguntar se uma mutação foi vista antes em humanos, independentemente de ser uma vez em uma população específica ou mil vezes em populações europeias, ele previu menos falsos positivos.
"Ninguém deve ter um resultado assustador apenas porque sua comunidade não está bem representada em bancos de dados globais. O popEVE ajuda a corrigir esse desequilíbrio, algo que a área tem perdido há muito tempo", disse o Dr. Frazer, coautor correspondente do estudo e pesquisador do Center for Genomic Regulation.
Os autores do estudo enfatizam que o popEVE apenas interpreta as mudanças no DNA que alteram as proteínas. Existem muitos outros tipos de mutações, por isso não cobre todos os tipos de variação genética. Também não substitui o julgamento clínico. Os médicos devem usar históricos médicos e análise de sintomas para auxiliar no diagnóstico.