Gemelli digitali e biologici per curare 5 malattie

Da utilizzare in test senza il ricorso alla sperimentazione animale

Gemelli digitali dei pazienti e gemelli biologici di organi e tessuti per migliorare diagnosi, monitoraggio e cure per cinque malattie.
I gemelli saranno creati con caratteristiche il più possibile sovrapponibili a quelle dei pazienti, per essere utilizzati in test che forniranno risultati affidabili senza il ricorso alla sperimentazione animale.
Tali modelli saranno sviluppati partendo dalla raccolta dei dati sanitari da un ampio numero di casi e da diversi ospedali, che verranno quindi analizzati attraverso algoritmi di intelligenza artificiale e integrati con dati raccolti attraverso tecnologie innovative come dispositivi indossabili, sensori e organ-on-chip.
È quanto prevede “D3 4 Health”, dove D3 sta per “Digital Driven Diagnostics”. Un progetto, coordinato dal professor Carlo Catalano dell'Università di Roma La Sapienza, che coinvolge 28 partner (tra università pubbliche e private, istituti di ricerca e imprese). E coprirà tre malattie oncologiche (il cancro metastatico del colon, quello del fegato e dei dotti biliari, il tumore del sistema nervoso centrale) e due autoimmuni complesse (il diabete di tipo 1 e la sclerosi multipla).
In totale è previsto un budget di 126,5 milioni di euro, provenienti dal Piano Nazionale di Ripresa e Resilienza (Pnrr), suddiviso tra quattro spoke: al primo andranno 15,6 milioni, al secondo oltre 26, al terzo 48 e al quarto 34. I fondi saranno destinati ad attività di potenziamento della ricerca sulle tecnologie digitali in ambito sanitario, attraverso un sofisticato processo di data mining.
D3 4 Health è iniziato il primo dicembre 2022, durerà 48 mesi e il kick-off c'è stato il 13 e il 14 marzo scorsi. L'obiettivo iniziale è raccogliere dati di tipo retrospettivo (non prospettico dove il tempo per la raccolta è più lungo), che vuol dire dati già disponibili.

I quattro spoke
Possono essere visti come una piramide e alla base c'è il primo, che si occupa di raccogliere i casi clinici e definire i quesiti clinici. Monica Miozzo, ordinaria di genetica medica all'Università degli Studi di Milano (ente coordinatore del primo Spoke), fa qualche esempio: “Trattare il paziente con la chemio prima della chirurgia o no?”, “Quando avrà danni vascolari?” e “Che tipo di terapia utilizzare?”.
“Lo scopo è avere dei parametri in più per rispondere in maniera personalizzata a queste domande. In modo da portare a una scelta terapeutica o meno. Così facendo si guadagna tempo evitando le terapie a cui il paziente non risponde e si evita il progredire delle malattie”, spiega la genetista. “È un progetto forte - continua Miozzo - perché ci sono i dati già raccolti. La fattibilità di un progetto si misura dall'avere già i dati”.
Per esempio, per il diabete di tipo 1 c'è MyStar, che è diffuso in tutta Italia. I medici dei pazienti con questa patologia inseriscono dati relativi a come il paziente risponde al dosaggio dell'insulina. E per la sclerosi multipla ci sono già a disposizione pazienti trattati. Ora, nell'ambito del primo spoke, si stanno facendo riunioni per ognuna delle cinque patologie e in queste sottocommissioni ci sono panel di esperti che hanno l'obiettivo di costruire dataset retrospettici omogenei.
Stanno definendo i panel, le tipologie, i database e stanno ripulendo i dati. “Costruire il dataset è difficile, analizzarli è più veloce”, sintetizza la professoressa. E le attività che li attendono sono molteplici: data ingestion, cura del dato togliendo quelli disomogenei, fare data modeling e definire le popolazioni. Inoltre per ogni query bisogna identificare e separare le popolazioni.
“I primi due spoke lavorano in simbiosi perché per sviluppare i modelli è necessaria una rilevante quantità di dati di adeguata qualità”. A dirlo è Giuseppe Jurman, a capo dell'unità “Data Science for Health” della Fondazione Bruno Kessler, co-leader dello Spoke 2, che ha come obiettivo la creazione di una piattaforma multistrato per supportare la generazione dei gemelli digitali dei pazienti. L'esperto spiega che: “Il fine è la stratificazione dei pazienti perché i gemelli digitali saranno per gruppi di pazienti. Questi saranno omogenei”.
Ora si stanno occupando di chiarire le domande cliniche sulle cinque malattie e i dati a disposizione sui pazienti. I passaggi sono: raccolta degli obiettivi clinici e loro caricamento nella piattaforma, raccolta e pulizia del dato per le cinque malattie di riferimento, sviluppo dei modelli di intelligenza artificiale e, infine, validazione dei dati ottenuti dai modelli.
La piattaforma deve garantire l'anonimizzazione, perché il progetto è conforme alle regole del Gdpr. Quella di riferimento è già in uso al San Raffaele di Milano, si chiama S-Race, sviluppata in una partnership tra Microsoft, l'università e l'ospedale.

Come funziona S-Race
Il professor Carlo Tacchetti, docente di anatomia umana, ricorda come è nata la piattaforma S-Race: “Con un mio collega, il professor Antonio Esposito, docente di radiologia, due anni fa avevamo deciso di sfruttare le nostre conoscenze in Microsoft per risolvere un problema grave per il Paese: i ricoveri da Covid-19. Durante la prima ondata ricoveravamo la maggior parte dei pazienti per osservare al termine del decorso della malattia che una frazione di questi non sviluppava forme gravi di Covid-19 e quindi con il senno di poi non avrebbero avuto necessità di un ricovero. Le nostre conoscenze non ci consentivano in quel momento di discriminare prima del ricovero coloro che avrebbero sviluppato una forma lieve di patologia, in modo da seguirli a domicilio, riducendo così il carico sugli ospedali”.
L'idea è stata quella di trovare un modello di intelligenza artificiale che ci consentisse in brevissimo tempo dall'arrivo del paziente al pronto soccorso di prendere una decisione sulla base di parametri predittivi. “Microsoft ci ha dato una grossa mano e insieme abbiamo sviluppato una piattaforma che, entro 30-40 minuti dall'arrivo del paziente in ospedale e prendendo in considerazione solo cinque parametri, consentiva di assegnare un valore di rischio prognostico a ciascun paziente. Due di questi parametri sono estratti in automatico dalle immagini di Tac toracica, senza l'intervento del radiologo. Il modello è stato validato su una coorte di pazienti della seconda ondata e ha funzionato in quasi il 100 per cento dei casi”.
A partire da questa esperienza è stata sviluppata la piattaforma S-Race per l'utilizzo in vari settori della medicina e che sarà fully deployed (messa a terra) a luglio. La piattaforma è stata sviluppata in stretta osservanza con il Gdpr e la modalità di utilizzo sarà concordata in stretta collaborazione con il garante della privacy.
La piattaforma di D3 4 Health nascerà da questa esperienza e sarà basata sullo stesso principio di interoperabilità. Per esempio i file in pdf vengono letti e decodificati grazie al “Text analytics for health”.
Vengono usati gli standard Umls (Unified Medical Language System), Snomed (Systematized Nomenclature of MEDicine) e Loinc (Logical Observation Identifiers Names and Codes) e il protocollo Fhir (Fast Healthcare Interoperability Resource). La piattaforma lavorerà su cloud Azure. Durante le fasi del progetto, la Fondazione Bruno Kessler svilupperà i modelli predittivi e gran parte di essi verranno fatti in Python per avere una maggiore efficienza. Poi si occuperà del loro testing e della loro validazione.
Per ogni singola malattia ci sono casi tra il centinaio e il migliaio e verranno elaborate un massimo di due domande cliniche. Quanti dati ci saranno per ogni caso verrà scoperto parlando con i produttori dei dati. Queste le possibili tipologie: dato clinico, genomico, bioimmagini e anatomia patologica (biopsie digitalizzate).
Per quanto riguarda l'intelligenza artificiale, si potrà far ricorso agli algoritmi classici di machine learning, quali per esempio le “Support vector machines” o “Random Forest”. Ma anche al deep learning, cioè alle reti neurali artificiali profonde. I primi sono più datati e già ben consolidati, mentre i secondi sono il nuovo paradigma di apprendimento, partito circa 10 anni fa e utilizzato per la guida autonoma delle auto, lo sviluppo dei farmaci o la predizione delle strutture 3D delle proteine. Tacchetti spiega che “in automatico vengono generati i modelli di machine learning di tipo black box, utilizzando AutoML. Questi modelli sono molto precisi, ma non mettono in chiaro quale è stato il processo decisionale che porta ad una determinata conclusione e sono quindi molto utili ma solo in ambito di ricerca. In contemporanea saranno sviluppati modelli glass box che rilasciano alberi dendritici decisionali. Il tronco è il modello più rilevante e man mano che si ramifica ci sono i parametri meno rilevanti. In questo modo è possibile intervenire in qualsiasi fase del processo decisionale accettando o meno una determinata conclusione. Questo aspetto li rende più sicuri per un eventuale uso clinico”.
In ogni caso, ci vogliono molti dati e parecchia potenza di calcolo. Per questo si farà ricorso ai computer del Cineca.
Elisa Rossi, responsabile del gruppo “Data Value” e dei progetti in ambito life science del dipartimento SuperComputing Application and Innovation di questo centro di calcolo, ricorda che la parte dedicata al Research and Simulation Lab è gestita dal Cineca: “Renderemo disponibili le risorse Hpc (High Performance Computing) per la gestione e analisi dei dati e per il training e ottimizzazione dei modelli di Ai”. Grazie all'Hpc è possibile accelerare molto i processi di elaborazione. “Con i computer normali certe operazioni non si possono proprio fare perché richiederebbero giorni, se non mesi”, sottolinea l'esperta.
Il supercomputer Leonardo è stato inaugurato a novembre 2022 ed è il quarto supercalcolatore più potente al mondo. Per dare un'idea: Leonardo ha una potenza computazionale di quasi 250 PFlops, in altri termini è in grado di compiere 250 milioni di miliardi di operazioni al secondo. Se tutti gli abitanti della Terra facessero un'operazione al secondo per ognuno dei 365 giorni dell'anno, a Leonardo basterebbe un solo secondo per fare altrettanto.
Per il progetto D3 4 Health, verranno utilizzati diversi linguaggi di programmazione (per esempio Python e R) per l'analisi, visualizzazione dei dati e training di modelli di AI, mentre per l'analisi dati omici si farà riferimento alle best practice internazionali con pipeline riproducibili e scalabili.

I wearable devices diventano una fonte
Gli aspetti moderni del learning consistono nello sviluppo di modelli interpretabili. Il clinico dovrà capire come il modello funziona per dare una certa risposta. Si parlerà di explainability e interpretability dei modelli. Ma anche di trustworthy environment: adattare tutti gli strumenti per garantire la privacy e lo scambio sicuro dei dati. Ci saranno modelli federati: non verranno spostati i dati dall'ospedale di riferimento, ma solo i modelli addestrati attraverso un network sicuro di collegamento.
I modelli verranno integrati con i dati provenienti dalle tecnologie indossabili, dai sensori e dai biomarcatori. Di questi strumenti si occupa lo Spoke 3, che è coordinato dall'Università La Sapienza, ma vi partecipa anche la Statale di Milano.
La professoressa Miozzo, direttrice dell'unità di genetica medica degli ospedali San Carlo e San Paolo, spiega che contribuirà alle piattaforme omiche: “Attrezzature e tecnologie che permettono di produrre un gran numero di dati biologici. Per esempio per analizzare un singolo gene (pochi dati), analizzano tutti i geni, cioè l'esoma (porzioni del genoma che codificano le proteine: poco più di 20 mila geni, circa l'1,5 per cento del genoma) o tutto il genoma (3 miliardi di paia di basi)”.
Gli studi omici su popolazioni di pazienti forniranno dati biologici che arricchiranno quelli clinici e si potranno creare modelli di predizioni molto più precisi. “Le piattaforme costano fino a milioni di euro, perciò i vari enti le metteranno in comune”, precisa la genetista.

La riproduzione di modelli biologici
Lo Spoke 4 si occuperà di “Modelli biologici e bioingegnerizzati in vitro” e sarà coordinato dal Politecnico di Torino.
Il professor Fabrizio Pirri, docente di fisica della materia, racconta che “si occuperanno di sviluppare in vitro dei modelli biologici che hanno le stesse funzionalità dell'in vivo. E lo scopo finale consiste nello sviluppare organi artificiali (organici ma pilotati dall'esterno, da una tecnologia)”. Svilupperanno in vitro delle patologie che dovrebbero essere identiche a come si sviluppano in vivo. Per esempio le patologie oncologiche mimeranno il comportamento del tumore. Mentre per il diabete e la sclerosi multipla in vitro sviluppano il modello di patologia allo scopo, in prospettiva, di poter sviluppare la cura.
“Verranno testati i farmaci più appropriati e le tecnologie potranno essere usate dalle case farmaceutiche. In ogni caso, il farmaco migliore dipende dal paziente. Oggi si fanno analisi e si va a intuito statistico dell'oncologo. Con in vitro, invece, si potrà colpire il tumore in maniera più efficiente”, evidenzia l'ingegnere. “Si potrà andare - prosegue Pirri - oltre la capacità mnemonica dell'oncologo, che ha visto tanti casi, ma non tutti. Avremo una sorta di ChatGPT medico. Si immetteranno tutti i dati del paziente e si riceverà come risposta quali terapie danno maggiori chance a livello statistico”.
Verranno trasformate le informazioni hardware (biological twin) in un modello software (digital twin) che mappa il paziente. “Con il biological twin si potranno testare molti più farmaci. Ora il testing è demenziale perché testo prima il farmaco sulle cellule. Ma è più facile colpire delle cellule in una provetta che in un essere umano. Perciò è importante testare in vitro. È più realistico”.

27/06/2023 10:00:00 Andrea Sperelli


Notizie correlate