ChatGPT in der Medizin: Zeit für Prüfungen

In einer Studie erreichte ChatGPT eine Genauigkeit von 72 % bei klinischen Entscheidungen.

Aus der Studie ging außerdem hervor, dass die Leistungen der künstlichen Intelligenz sowohl in der Primärversorgung wie bei Notfällen und in allen medizinischen Fachbereichen gleich gut waren, während sie bei der Differenzialdiagnose schlechter ausfielen.

Als die Forschenden des Mass General Brigham ChatGPT während einer klinischen Untersuchung– d.h., Diagnosestellung, Vorgehensweise und endgültige Diagnose – eines Patienten auf die Probe stellten, entdeckten sie, dass die künstliche Intelligenz trotz der derzeitigen unvermeidlichen Beschränkungen „beeindruckend genau“ war.

Die Forschenden des Innovation in Operations Research Center des MGB trainierten ChatGPT, einen LLM (Large Language Model)-basierten Chatbot, mit allen 36 vom klinischen Handbuch Merck Sharpe und Dohme veröffentlichten „klinischen Vignetten“ und untersuchten seine Genauigkeit bezüglich der Differenzialdiagnose, diagnostischer Tests, der Enddiagnose und der Behandlung, auf der Grundlage von Alter und Geschlecht des Patienten sowie der Schwere des Falls.

„Es gibt keine wirklichen Vergleichsdaten, aber wir schätzen, dass diese Leistungen denen eines Absolventen der medizinischen Fakultät entsprechen, zum Beispiel einem Arzt oder einer Ärztin im Praktikum, oder von jemandem, der seinen Facharzt macht“, erklärt Marc Succi vom MGB.

Die Genauigkeit von ChatGPT beim Entscheidungsprozesses lag insgesamt in allen 36 klinischen Fällen bei 71,7 %. ChatGPT formulierte mögliche Diagnosen, stellte endgültige Diagnosen und fällte Entscheidungen zum klinischen Management. Die besten Ergebnisse erreichte der Chatbot bei den Enddiagnosen mit 77 %. Am schlechtesten schnitt er bei den Differenzialdiagnosen ab, mit einer Genauigkeit, die nicht über 60 % hinausging, während bei den Entscheidungen über die klinische Behandlung die Leistung nur bei 68 % lag.

„ChatGPT hatte Probleme mit der Differenzialdiagnose, die der Moment ist, in dem der Arzt oder die Ärztin wissen muss, was zu tun ist“, erklärt Succi. „Das ist wichtig, denn es zeigt uns, wo die Ärzt:innen wirklich Expert:innen sind und den höchsten Wert beitragen: In der Anfangsphase der Behandlung der Patient:innen, mit wenigen Informationen, wenn man eine Liste der möglichen Diagnosen braucht.“

Während die meisten für die Gesundheitstechnologie geschaffenen  ChatGPT-Tools  dazu dienen sollen, Burnout bei Ärzt:innen zu reduzieren, indem sie die Dokumentation und Datenrecherchen vereinfachen und Fragen von Patient:innen beantworten, sei einer der kritischsten Punkte, mit denen sich der Sektor in Bezug auf künstliche Intelligenz befassen müsse, das Vertrauen, gemäß Dr. Blackford Middleton von Stanford Health Care.

„Wenn man die Ärzt:innen der Gesundheitseinrichtungen überzeugen will, einem KI-System zu vertrauen, das die Gesundheitssysteme implementieren wollen, spielt Transparenz eine entscheidende Rolle. Auch die Fähigkeit, Feedback zu geben, ist wesentlich. Wie bei der Post Market Surveillance von Arzneimitteln, wenn die KI in den Entscheidungsprozess einbezogen ist, damit die Entwickler die Systeme ausarbeiten können.“

Es ist unerlässlich, die Lerndaten und die Aktualisierungszyklen, auf denen das LLM beruht, zu kennen, denn der klinische Entscheidungsprozess mit künstlicher Intelligenz ist praktisch Neuland.

Quelle
Rao A et al. Assessing the utility of ChatGPT throughout the entire clinical workflow: development and usability study. J Med Internet Res 2023;25:e48659.