(2° pagina) (Torna
alla 1° pagina..) su quattro tipi di Intelligenza Artificiale per verificare le loro prestazioni in contesti che riproducevano le interazioni reali con i pazienti.
I risultati sono apparsi buoni nelle domande da esame medico, ma le prestazioni sono peggiorate nel momento in cui hanno dovuto affrontare conversazioni che simulavano le interazioni del mondo reale.
«Il nostro lavoro rivela un sorprendente paradosso: mentre questi modelli di intelligenza artificiale eccellono negli esami standard, hanno difficoltà nel semplice "botta e risposta" di una visita medica», spiega Pranav Rajpurkar , autore senior dello studio e professore associato di Informatica biomedica presso la Harvard Medical School.
«La natura dinamica delle conversazioni medico-paziente, la necessità di porre le domande giuste al momento giusto, di mettere insieme informazioni frammentate e di ragionare sui sintomi, pone sfide uniche che vanno ben oltre il rispondere a domande a risposta multipla. Quando passiamo dai test standard a questi dialoghi naturali, persino i modelli di intelligenza artificiale più sofisticati mostrano cali significativi nell'accuratezza della diagnosi», aggiunge il professore.
I test attuali valutano le prestazioni dei modelli di Intelligenza Artificiale chiedendo loro di rispondere a domande mediche a risposta multipla, tratte di solito dall’esame nazionale per gli studenti di medicina o da test somministrati ai medici specializzandi nell'ambito della loro certificazione negli Stati Uniti. «Questo approccio presuppone che tutte le informazioni rilevanti siano presentate in modo chiaro e conciso, spesso con terminologia medica o parole di riferimento che semplificano il processo diagnostico, ma nel mondo reale questo processo è molto più complicato», sottolinea Shreya Johri, co-autore dello studio e ricercatrice presso il Rajpurkar Lab della Harvard Medical School. «Abbiamo bisogno di un framework di test che rifletta meglio la realtà e che sia, quindi, più efficace nel prevedere la riuscita di un modello».
Per andare incontro a questa esigenza è stato progettato CRAFT-MD, che valuta quanto gli algoritmi riescano a raccogliere informazioni su sintomi, farmaci e storia familiare e quindi a formulare una diagnosi.
Un agente AI viene utilizzato per fare la parte del paziente, rispondendo alle domande in uno stile colloquiale e naturale. Un altro agente AI valuta l'accuratezza della diagnosi finale fornita dal sistema.
Alla fine è l’uomo a valutare i risultati di ogni incontro riguardo alla capacità di raccogliere informazioni rilevanti sul paziente, l'accuratezza diagnostica quando ai modelli vengono presentate informazioni frammentate e la coerenza alle richieste.
Sono stati analizzati 4 modelli di Intelligenza Artificiale per verificare le prestazioni in 2.000 casi clinici che presentano malattie comuni nella medicina di base e in 12 specialità mediche.
I risultati indicano che i modelli hanno spesso avuto difficoltà a porre le domande giuste per raccogliere la storia clinica del paziente, hanno perso informazioni essenziali durante l’anamnesi e hanno mostrato difficoltà a sintetizzare le varie informazioni. L’accuratezza è ulteriormente diminuita quando sono state offerte loro informazioni non conclusive invece di risposte a scelta multipla. Le prestazioni erano di qualità minore quando l’IA doveva affrontare colloqui “botta e risposta”, come avviene nella maggior parte delle conversazioni del mondo reale.
Al contempo, lo studio dimostra che al processo di valutazione dovrebbero partecipare sia agenti IA sia esperti umani, perché affidarsi solo a questi ultimi comporta più lavoro e costi.
Ad esempio, CRAFT-MD ha superato i valutatori umani, elaborando 10.000 conversazioni in 48-72 ore, più 15-16 ore di valutazione di un esperto. Al contrario, gli approcci basati sugli umani richiederebbero un reclutamento esteso e circa 500 ore per le simulazioni dei pazienti e circa 650 ore per le valutazioni degli esperti.
«Come medico e scienziato, sono interessata ai modelli di intelligenza artificiale che possono implementare la pratica clinica in modo efficace ed etico», ha affermato la co-autrice senior dello studio Roxana Daneshjou, professore associato di Biomedical Data Science e Dermatologia presso la Stanford University. «CRAFT-MD crea un quadro che rispecchia più da vicino le interazioni del mondo reale e quindi aiuta a far progredire il settore quando si tratta di testare le prestazioni del modello di intelligenza artificiale nell'assistenza sanitaria».
Notizie specifiche su:
intelligenza,
artificiale,
diagnosi,
03/01/2025 Andrea Sperelli
|
Puoi
fare una domanda agli specialisti del forum
e iscriverti alla newsletter,
riceverai le notizie più importanti. |
Può aiutare quando non è possibile contattare uno specialista
Può ridurre la degenza dei pazienti operati
Prestazioni notevoli in fase di test ma difficoltà nelle applicazioni quotidiane
Sviluppati da un team italo-svizzero
Scienziati scoprono una tecnica in grado di rendere visibili gli organi interni
Nuovo dispositivo indossabile monitora i valori vitali
Riesce a individuare i primi segnali di scompenso cardiaco
Ricercatori di Google mettono a punto un nuovo sistema diagnostico
Fondamentale il movimento del diaframma
Costruiti a partire da cellule umane
Le probabilità di rimanere in cura più a lungo sono maggiori
È veramente tutto oro quel che luccica?
L’Intelligenza Artificiale offre una diagnosi corretta per un caso difficile
Realizzato un modello per l’analisi automatizzata delle immagini
Come cambierà la sanità nel nuovo anno
Ipotesi catastrofistiche e senso della realtà nel dibattito sull'IA
Difficilmente un algoritmo potrà rendere inutile l’esperienza dei medici
Primo studio internazionale su un simulatore basato su realtà virtuale
L'avvento del futuro nel campo della salute