In uno studio ChatGPT ha ottenuto un punteggio pari al 72% in termini di accuratezza delle decisioni cliniche.
Dalla ricerca è emerso anche che le prestazioni dell’intelligenza artificiale sono rimaste costanti sia nelle cure primarie che in quelle di emergenza e in tutte le specialità mediche, mentre ha avuto difficoltà con le diagnosi differenziali.
Mettendo alla prova ChatGPT durante un intero incontro clinico con un paziente – percorso diagnostico, una linea di condotta e diagnosi finale – i ricercatori del Mass General Brigham hanno scoperto che l’intelligenza artificiale ha “impressionanti accuratezza” nonostante le per ora ineliminabili limitazioni.
I ricercatori dell’Innovation in Operations Research Center dell’MGB hanno addestrato ChatGPT, unchatbot di intelligenza artificiale LLM (Large Language Model), su tutte le 36 “clinical vignettes” pubblicate dal manuale clinico Merck Sharpe & Dohme e ne hanno confrontato l’accuratezza su diagnosi differenziali, test diagnostici, diagnosi finale e gestione in base all’età del paziente, al sesso e alla gravità del caso.
“Non esistono parametri di riferimento reali, ma stimiamo che queste prestazioni siano al livello di qualcuno che si è appena laureato in medicina, come uno stagista o uno specializzando”, ha spiegato Marc Succi dell’MGB.
La precisione complessiva di ChatGPTG è stata pari al 71,7% nel processo decisionale clinico in tutti i 36 casi clinici. ChatGPT ha formulato possibili diagnosi e ha preso le diagnosi finali e le decisioni sulla gestione delle cure. I risultati migliori li ha ottenuti nella diagnosi finale, dove l’intelligenza artificiale con il 77% di precisione. Nelle diagnosi differenziali sono arrivati i punteggi peggiori, con un’accuratezza che non ha superato il 60%, mentre nelle decisioni di gestione clinica le prestazioni sono state inferiori al 68%.
“ChatGPT ha avuto problemi con la diagnosi differenziale, che è il momento in cui un medico deve capire cosa fare”, ha precisato Succi. “Questo è importante perché ci dice dove i medici sono veramente esperti e apportano il massimo valore: nelle fasi iniziali della cura del paziente con poche informazioni di presentazione, quando è necessario un elenco di possibili diagnosi”.
Mentre la maggior parte degli strumenti ChatGPT creati per la tecnologia sanitaria si concentrano sulla riduzione del burnout dei medici semplificando le attività di documentazione o ricerca dati e rispondendo alle domande dei pazienti, una delle criticità più importanti che il settore deve affrontare con l’intelligenza artificiale è la fiducia, secondo il dottor Blackford Middleton della Stanford Health Care.
“Per convincere i medici delle organizzazioni sanitarie a fidarsi di un sistema di intelligenza artificiale che i sistemi sanitari desiderano implementare, la trasparenza è fondamentale. Anche la capacità di fornire feedback è essenziale, “come per la sorveglianza post-marketing dei farmaci”, quando l’intelligenza artificiale è coinvolta nel processo decisionale in modo che gli sviluppatori possano mettere a punto i sistemi”.
Sapere quali sono i dati di formazione e i cicli di aggiornamento alla base del LLM è fondamentale perché il processo decisionale clinico con l’intelligenza artificiale è un settore praticamente ancora vergine.
Fonte
Rao A et al. Assessing the utility of ChatGPT throughout the entire clinical workflow: development and usability study. J Med Internet Res 2023;25:e48659.