Chat GPT als Arzt: Die KI besteht Examen – und gibt Diagnosen

10 Apr 2023

Business Insider Deutschland

Sam Altman, CEO von OpenAI. OpenAI entwickelte Chat GPT und die bisher anspruchsvollstes KI, GPT-4.

Jason Redmond / AFP via Getty Images

Ein Arzt und Harvard-Informatiker sagt, GPT-4 habe ein besseres klinisches Urteilsvermögen als „viele Ärzte“.

Der Chatbot kann seltene Krankheiten diagnostizieren, „genauso wie ich es tun würde“, sagte er.

Aber GPT-4 kann auch Fehler machen, und er hat keinen hippokratischen Eid abgelegt.

Wir testen zurzeit maschinelle Übersetzungen von Artikeln unserer US-Kollegen, um euch noch mehr spannende Inhalte anzubieten. Dieser Artikel wurde automatisiert übersetzt und von einem Redakteur überprüft. Wir freuen uns über Feedback am Ende des Artikels.

Isaac Kohane, der sowohl Informatiker in Harvard als auch Arzt ist, tat sich mit zwei Kollegen zusammen, um GPT-4 zu testen, mit einem Hauptziel: Er wollte sehen, wie sich das neueste Modell künstlicher Intelligenz (KI) von OpenAI in einem medizinischen Umfeld schlägt – kann Chat GPT Arzt sein?

„Ich bin verblüfft und muss sagen: besser als viele Ärzte, die ich beobachtet habe“, sagt er in dem demnächst erscheinenden Buch„The AI Revolution in Medicine„, das von der unabhängigen Journalistin Carey Goldberg und dem Vizepräsidenten der Forschungsabteilung von Microsoft, Peter Lee, verfasst wurde. (Die Autoren sagen, dass weder Microsoft noch OpenAI das Buch redaktionell betreuen mussten, obwohl Microsoft Milliarden von Dollar in die Entwicklung der OpenAI-Technologien investiert hat)

In dem Buch sagt Kohane, dass GPT-4, der im März 2023 für zahlende Abonnenten veröffentlicht wurde, die Fragen zur Zulassung zum medizinischen Examen in den USA in mehr als 90 Prozent der Fälle richtig beantwortet. Es ist viel besser als die vorherigen ChatGPT-KI-Modelle, GPT-3 und -3.5, und auch besser als einige zugelassene Ärzte.

Lest auch

Der Chat GPT Arzt kann lange Studien lesen und im Handumdrehen zusammenfassen

GPT-4 ist aber nicht nur ein guter Testmacher und Faktenfinder. Es ist auch ein großartiger Übersetzer. Im Buch ist es in der Lage, Entlassungsinformationen für einen Patienten zu übersetzen, der Portugiesisch spricht, und komplizierten Fachjargon in etwas zu destillieren, das Sechstklässler leicht lesen können.

Wie die Autoren anhand anschaulicher Beispiele erläutern, kann GPT-4 Ärzten auch hilfreiche Ratschläge für den Umgang mit Patienten am Krankenbett geben, indem es ihnen Tipps gibt, wie sie mitfühlend und in klarer Sprache über ihre Krankheiten sprechen können. Außerdem kann es lange Berichte oder Studien lesen und sie im Handumdrehen zusammenfassen. Der Chat GPT Arzt kann sogar seine Überlegungen zu Problemen auf eine Weise erklären, die ein gewisses Maß an menschlicher Intelligenz voraussetzt.

Aber wenn ihr GPT-4 fragt, wie es all das macht, wird es Ihnen wahrscheinlich sagen, dass all seine Intelligenz immer noch „auf Muster in den Daten beschränkt ist und kein echtes Verständnis oder Intentionalität beinhaltet“. Das sagte GPT-4 den Autoren des Buches, als sie fragten, ob es tatsächlich kausale Überlegungen anstellen könne. Trotz dieser Einschränkungen kann GPT-4, wie Kohane in seinem Buch herausfand, mit verblüffendem – wenn auch unvollkommenem – Erfolg nachahmen, wie Ärzte Krankheiten diagnostizieren.

So kann der Chat-GPT-Arzt Diagnosen wie ein menschlicher Arzt stellen

Kohane führt in seinem Buch ein klinisches Gedankenexperiment mit GPT-4 durch, das auf einem realen Fall eines Neugeborenen basiert, das er einige Jahre zuvor behandelt hatte. Er gab der KI einige Schlüsselinformationen über das Baby, die er bei einer körperlichen Untersuchung gesammelt hatte, sowie einige Informationen aus einem Ultraschall und Hormonspiegeln, und das Gerät war in der Lage, eine 1:100.000-Krankheit namens kongenitale Nebennierenhyperplasie korrekt zu diagnostizieren, „genauso wie ich es mit all meinen Studienjahren und meiner Erfahrung tun würde“, schreibt Kohane.

Der Arzt war beeindruckt und entsetzt zugleich. „Einerseits führte ich ein anspruchsvolles medizinisches Gespräch mit einem Computerprozess“, schrieb er. „Andererseits war die ängstliche Erkenntnis, dass Millionen von Familien bald Zugang zu diesem beeindruckenden medizinischen Fachwissen haben würden, ebenso überwältigend. Und ich konnte mir nicht vorstellen, wie wir garantieren oder bescheinigen könnten, dass die Ratschläge von GPT-4 sicher oder wirksam sein werden.“

GPT-4 hat nicht immer recht – und hat keinen ethischen Kompass

GPT-4 ist nicht immer zuverlässig, und das Buch ist voll von Beispielen für seine Fehler. Sie reichen von einfachen Schreibfehlern, wie der falschen Angabe eines BMI, den der Bot kurz zuvor korrekt berechnet hatte, bis hin zu mathematischen Fehlern, wie dem ungenauen „Lösen“ eines Sudoku-Rätsels oder dem Vergessen, einen Term in einer Gleichung zu quadrieren. Die Fehler sind oft subtil und das System neigt dazu, zu behaupten, es habe recht, selbst wenn es infrage gestellt wird. Es ist nicht schwer sich vorzustellen, wie eine falsche Zahl oder ein falsch berechnetes Gewicht zu schwerwiegenden Fehlern bei der Verschreibung oder der Diagnose führen kann.

Lest auch

Wie frühere GPTs kann auch GPT-4 „halluzinieren“ – der technische Euphemismus für den Fall, dass die KI Antworten erfindet oder Aufforderungen nicht befolgt. Als die Autoren des Buches GPT-4 zu diesem Thema befragten, sagte es: „Ich habe nicht die Absicht, jemanden zu täuschen oder in die Irre zu führen. Aber ich mache manchmal Fehler oder Annahmen, die auf unvollständigen oder ungenauen Daten beruhen. Ich habe auch nicht das klinische Urteilsvermögen oder die ethische Verantwortung eines menschlichen Arztes oder einer Krankenschwester.“

Selbstkorrektur funktioniert nur manchmal

Eine mögliche Gegenkontrolle, die die Autoren in ihrem Buch vorschlagen, besteht darin, eine neue Sitzung mit dem Chat GPT Arzt zu beginnen und es mit „frischen Augen“ seine eigene Arbeit „durchlesen“ und „überprüfen“ zu lassen. Diese Taktik funktioniert manchmal, um Fehler aufzudecken – obwohl GPT-4 etwas zurückhaltend ist, zuzugeben, wenn es sich geirrt hat. Ein weiterer Vorschlag zur Fehlersuche besteht darin, dem Bot zu befehlen, euch seine Arbeit zu zeigen, damit ihr sie wie ein Mensch überprüfen können.

Es liegt auf der Hand, dass GPT-4 das Potenzial hat, wertvolle Zeit und Ressourcen in der Klinik freizusetzen und es den Ärzten zu ermöglichen, sich mehr um die Patienten zu kümmern, „anstatt vor dem Computerbildschirm zu sitzen“, schreiben die Autoren. Aber, so sagen sie, „wir müssen uns zwingen, uns eine Welt mit immer intelligenteren Maschinen vorzustellen, die schließlich die menschliche Intelligenz in fast jeder Dimension übertreffen könnten. Und dann müssen wir sehr genau darüber nachdenken, wie wir wollen, dass diese Welt funktioniert“

Lest auch