| Introdução |
Para que os relatórios radiológicos sejam eficazes, os radiologistas devem garantir precisão e consistência, especialmente entre as seções de resultados e impressões. Os relatórios radiológicos preliminares são normalmente escritos por residentes e posteriormente revisados e aprovados por radiologistas certificados. Este processo legalmente exigido aumenta a precisão, mas é demorado e consome muitos recursos. Além disso, as crescentes cargas de trabalho dos radiologistas, os ambientes clínicos de alta pressão e o reconhecimento de fala não confiável significam que os relatórios radiológicos estão sujeitos a erros.
Uma análise recente de relatórios preliminares de residentes mostrou que os erros de notificação mais comuns são confusão de discriminadores de lateralidade (esquerda, direita) e registro incorreto de descritores inadvertidos usando reconhecimento de fala (um, nenhum). Estes dois erros, se não forem corrigidos, podem ter graves repercussões.
O GPT-4 (ChatGPT; OpenAI), um modelo autorregressivo de grande linguagem, pode oferecer soluções potenciais para esses desafios. Estudos recentes demonstraram aplicações potenciais do GPT-4 no atendimento ao paciente. Por exemplo, transformar relatórios radiológicos de texto livre em formatos estruturados, gerar automaticamente a seção de impressão e gerar relatórios radiológicos competentes (por exemplo, para fraturas do rádio distal) sublinham sua utilidade na padronização de relatórios. O papel do GPT-4 na educação e na expansão do conhecimento na área de radiologia também tem sido investigado.
Usar o GPT-4 para corrigir laudos radiológicos poderia aliviar a carga de trabalho dos radiologistas supervisores e ser um recurso educacional para residentes, pois poderia corrigir laudos radiológicos e apontar erros. Isto seria particularmente benéfico se os residentes não tivessem acesso a ferramentas que rastreiem as modificações dos relatórios feitas pelos radiologistas supervisores. Portanto, este estudo teve como objetivo avaliar o desempenho do GPT-4 na detecção dos erros e discrepâncias mais comuns em laudos radiológicos e estimar seu potencial para redução de tempo e custos.
| Materiais e métodos |
Para este estudo retrospectivo, 200 laudos radiológicos (radiografia e imagens transversais [TC e RM]) foram compilados entre junho de 2023 e dezembro de 2023 em uma instituição. Houve 150 erros de cinco categorias de erros comuns (omissão, inserção, ortografia, confusão lateral e outros) inseridos intencionalmente em 100 dos relatórios e utilizados como padrão de referência. Seis radiologistas (dois radiologistas experientes, dois médicos assistentes e dois residentes) e o GPT-4 foram encarregados de detectar esses erros. O desempenho geral de detecção de erros, a detecção de erros nas cinco categorias de erros e o tempo de leitura foram avaliados usando testes χ2 de Wald e testes t de amostras pareadas.
| Resultados |
O GPT-4 (taxa de detecção, 82,7%; 124 de 150; IC de 95%: 75,8, 87,9) correspondeu ao desempenho médio de detecção de radiologistas, independentemente da experiência (radiologistas experientes, 89,3% [134 de 150; IC de 95%: 83,4, 93,3 ]; médicos responsáveis pelo tratamento, 80,0% [120 de 150; IC de 95%: 72,9; 142 de 150; IC de 95%: 89,8, 97,3; P = 0,006; GPT-4 exigiu menos tempo de processamento por relatório radiológico do que o leitor humano mais rápido do estudo (tempo médio de leitura, 3,5 segundos ± 0,5 [DP] vs. 25). 1 segundo ± 20,1, respectivamente.
O uso do GPT-4 resultou em um custo médio de correção por laudo menor do que o radiologista com melhor custo-benefício (US$ 0,03 ± 0,01 vs. US$ 0,42 ± 0,41; P < 0,001; Cohen d = −1,12).
| Discussão |
No final do estudo, o GPT-4 demonstrou uma taxa de detecção de erros em relatórios radiológicos comparável à dos radiologistas, o que poderia economizar horas de trabalho e reduzir custos. No entanto, considerações legais e de privacidade e a lacuna de desempenho remanescente em comparação com relatórios radiológicos teoricamente perfeitos enfatizam a necessidade contínua de supervisão humana no processo de geração de relatórios.
Para implementar um modelo de linguagem amplo no sistema de informação hospitalar local, a privacidade dos dados deve ser garantida. Uma solução promissora é uma versão offline ou local baseada em servidor privado de um modelo de linguagem grande, potencialmente equipada com uma interface de programação de aplicativo correspondente. Tal sistema pode ser um recurso educacional, servindo como um tutor interativo para os residentes, destacando erros comuns e fornecendo informações que promovem um ambiente de aprendizagem robusto, permitindo análise e correção de relatórios radiológicos em tempo real e feedback imediato sobre erros.
|
Conclusão Em conclusçai, a taxa de detecção de erros nos relatórios radiológicos do GPT-4 foi comparável à dos radiologistas, reduzindo potencialmente as horas de trabalho e os custos. |