Intelligenza Artificiale deludente nel mondo reale

Prestazioni notevoli in fase di test ma difficoltà nelle applicazioni quotidiane

L'utilizzo dell'Intelligenza Artificiale in medicina è ormai fatto noto e comunemente accettato. Sistemi come ChatGPT, Gemini, Gork e altri possono portare a termine lavori molto pesanti in poco tempo, aiutando i medici nella selezione dei pazienti, nella raccolta delle anamnesi e nel fornire diagnosi preliminari. Tuttavia, uno studio della Harvard Medical School e della Stanford University pubblicato su Nature Medicine dimostra anche i limiti di questa nuova tecnologia.
Un altro studio sul New England Journal of Medicine evidenzia come i sistemi di Intelligenza Artificiale mostrino «bias cognitivi simili a quelli umani e l'entità del bias può essere maggiore di quanto osservato nei medici praticanti».
I ricercatori di Harvard e Stanford hanno realizzato un test chiamato CRAFT-MD (Conversational Reasoning Assessment Framework for Testing in Medicine) e lo hanno utilizzato su quattro tipi di Intelligenza Artificiale per verificare le loro prestazioni in contesti che riproducevano le interazioni reali con i pazienti.
I risultati sono apparsi buoni nelle domande da esame medico, ma le prestazioni sono peggiorate nel momento in cui hanno dovuto affrontare conversazioni che simulavano le interazioni del mondo reale.
«Il nostro lavoro rivela un sorprendente paradosso: mentre questi modelli di intelligenza artificiale eccellono negli esami standard, hanno difficoltà nel semplice "botta e risposta" di una visita medica», spiega Pranav Rajpurkar , autore senior dello studio e professore associato di Informatica biomedica presso la Harvard Medical School.
«La natura dinamica delle conversazioni medico-paziente, la necessità di porre le domande giuste al momento giusto, di mettere insieme informazioni frammentate e di ragionare sui sintomi, pone sfide uniche che vanno ben oltre il rispondere a domande a risposta multipla. Quando passiamo dai test standard a questi dialoghi naturali, persino i modelli di intelligenza artificiale più sofisticati mostrano cali significativi nell'accuratezza della diagnosi», aggiunge il professore.
I test attuali valutano le prestazioni dei modelli di Intelligenza Artificiale chiedendo loro di rispondere a domande mediche a risposta multipla, tratte di solito dall'esame nazionale per gli studenti di medicina o da test somministrati ai medici specializzandi nell'ambito della loro certificazione negli Stati Uniti. «Questo approccio presuppone che tutte le informazioni rilevanti siano presentate in modo chiaro e conciso, spesso con terminologia medica o parole di riferimento che semplificano il processo diagnostico, ma nel mondo reale questo processo è molto più complicato», sottolinea Shreya Johri, co-autore dello studio e ricercatrice presso il Rajpurkar Lab della Harvard Medical School. «Abbiamo bisogno di un framework di test che rifletta meglio la realtà e che sia, quindi, più efficace nel prevedere la riuscita di un modello».
Per andare incontro a questa esigenza è stato progettato CRAFT-MD, che valuta quanto gli algoritmi riescano a raccogliere informazioni su sintomi, farmaci e storia familiare e quindi a formulare una diagnosi.
Un agente AI viene utilizzato per fare la parte del paziente, rispondendo alle domande in uno stile colloquiale e naturale. Un altro agente AI valuta l'accuratezza della diagnosi finale fornita dal sistema.
Alla fine è l'uomo a valutare i risultati di ogni incontro riguardo alla capacità di raccogliere informazioni rilevanti sul paziente, l'accuratezza diagnostica quando ai modelli vengono presentate informazioni frammentate e la coerenza alle richieste.
Sono stati analizzati 4 modelli di Intelligenza Artificiale per verificare le prestazioni in 2.000 casi clinici che presentano malattie comuni nella medicina di base e in 12 specialità mediche.
I risultati indicano che i modelli hanno spesso avuto difficoltà a porre le domande giuste per raccogliere la storia clinica del paziente, hanno perso informazioni essenziali durante l'anamnesi e hanno mostrato difficoltà a sintetizzare le varie informazioni. L'accuratezza è ulteriormente diminuita quando sono state offerte loro informazioni non conclusive invece di risposte a scelta multipla. Le prestazioni erano di qualità minore quando l'IA doveva affrontare colloqui “botta e risposta”, come avviene nella maggior parte delle conversazioni del mondo reale.
Al contempo, lo studio dimostra che al processo di valutazione dovrebbero partecipare sia agenti IA sia esperti umani, perché affidarsi solo a questi ultimi comporta più lavoro e costi.
Ad esempio, CRAFT-MD ha superato i valutatori umani, elaborando 10.000 conversazioni in 48-72 ore, più 15-16 ore di valutazione di un esperto. Al contrario, gli approcci basati sugli umani richiederebbero un reclutamento esteso e circa 500 ore per le simulazioni dei pazienti e circa 650 ore per le valutazioni degli esperti.
«Come medico e scienziato, sono interessata ai modelli di intelligenza artificiale che possono implementare la pratica clinica in modo efficace ed etico», ha affermato la co-autrice senior dello studio Roxana Daneshjou, professore associato di Biomedical Data Science e Dermatologia presso la Stanford University. «CRAFT-MD crea un quadro che rispecchia più da vicino le interazioni del mondo reale e quindi aiuta a far progredire il settore quando si tratta di testare le prestazioni del modello di intelligenza artificiale nell'assistenza sanitaria».

03/01/2025 Andrea Sperelli


Notizie correlate