Estudos confirmaram que a capacidade diagnóstica da inteligência artificial (IA) por mamografia é superior ou comparável à dos humanos. Com isso, essa tecnologia começa a ser integrada aos fluxos de trabalho reais de rastreamento do câncer de mama. No entanto, ainda há preocupações quanto à sua falta de transparência sobre como esses sistemas chegam aos seus resultados— o chamado fenômeno da “caixa-preta”.
Uma forma de tornar a IA mais transparente é por meio da exibição das regiões de interesse (ROI) diretamente na imagem, permitindo que profissionais compreendam como essa tecnologia chegou à sua conclusão. Embora a maioria dos estudos avalie a IA apenas no nível da imagem (presença ou ausência de câncer), poucos analisaram sua capacidade de localizar precisamente as lesões, o que é essencial para a prática clínica.
Diante disso, Taib e colaboradores (2025) compararam o desempenho diagnóstico de um algoritmo comercial de IA na interpretação de mamografias tanto à nível da mama quanto da lesão, utilizando o mesmo conjunto de dados.
O estudo retrospectivo analisou 1.200 mamografias do programa de rastreamento de câncer de mama do National Health Service (NHS), correspondentes a 600 casos clínicos extraídos do banco de dados PERFORMS. As imagens foram interpretadas por um algoritmo comercial IA e por 1.258 leitores humanos treinados, todos participantes do programa de garantia de qualidade externa PERFORMS.
Para mamas com malignidades confirmadas por patologia, foi realizada uma análise em dois níveis: da mama e da lesão, considerando as localizações das ROI marcadas pela IA e pelos humanos. Para mamas não malignas, foi realizada apenas a análise ao nível da mama, registrando a maior pontuação por imagem.
Ao todo, foram 6.954 leituras válidas para essa etapa. Das 1.200 mamografias analisadas, 318 mamas (26,5%) apresentavam malignidades confirmadas, totalizando 328 lesões cancerígenas. As demais imagens eram de mamas normais ou benignas.
Entre as lesões malignas, 80% eram invasivas, sendo o subtipo ductal o mais comum (70%). O tamanho mediano das lesões foi de 13 mm. Radiologicamente, a maioria das lesões se apresentava como massas (59%), seguidas por calcificações (18%) e distorções arquiteturais (17%).
Na análise ao nível da mama, a sensibilidade da IA e dos leitores humanos foi de 88,7% e 87,5%, respectivamente, sem diferença estatística significativa. Ao nível da lesão, também não houve diferença relevante entre os grupos, embora a ferramenta tecnológica tenha mantido desempenho mais estável.
Ao ajustar o limiar do algoritmo para igualar a especificidade média humana, a IA alcançou uma sensibilidade de 92,1%, superior à dos humanos. No nível da lesão, a ferramenta automatizada detectou 90,9% das lesões, enquanto os profissionais identificaram 83,2%.
Quanto à especificidade, a IA superou os especialistas com 87,4% contra 79,2%, mantendo vantagem mesmo quando ajustada para igualar a sensibilidade humana.
Apesar do bom desempenho geral, a IA apresentou pontuações discordantes entre os níveis de mama e lesão em cinco casos, envolvendo oito lesões malignas. Embora todas as mamas tenham sido corretamente identificadas para recall, cinco das oito lesões não seriam lembradas pela IA, e quatro não foram corretamente localizadas. No total, a tecnologia falhou em localizar 4% das lesões malignas (13 casos). A taxa mediana de erro humano nesses mesmos casos foi de 62,6%, evidenciando que essas lesões — como massas espiculadas, mal definidas, calcificações e distorções arquiteturais — representaram desafios diagnósticos para ambos.
Em resumo, o estudo de Taib e colaboradores (2025) reforçou a importância de avaliar a IA não apenas pela classificação da mama como suspeita, mas também pela sua capacidade de localizar precisamente a lesão, o que pode impactar diretamente a conduta clínica. A análise ao nível da lesão permitiu compreender melhor o “raciocínio” da IA e pode contribuir para decisões mais seguras e eficazes no rastreamento de câncer de mama por mamografia.