Datenhalluzination durch KI: Wie sie zustande kommt und wie sie sich verringern lässt

Falschaussagen von Künstlicher Intelligenz können ernste Folgen haben. Wie es zu solchen Datenhalluzinationen kommt und wie sie sich verringern lassen, erklärt Gerald Martinetz, Verantwortlicher für die Bereiche angewandte künstliche Intelligenz und Klassifizierung bei Mindbreeze, im Gastkommentar.

In einer Welt, in der schnelle und fundierte Entscheidungen immer wichtiger werden, stehen Versicherungsunternehmen vor der Herausforderung, riesige Datenmengen aus umfangreichen Studien und Umfragen rasch zu analysieren. Hier kommt Künstliche Intelligenz (KI) ins Spiel: Sie transformiert die Versicherungsbranche nachhaltig, da sie die Art und Weise verändert, wie Unternehmen ihre Daten verarbeiten und nutzen.

Generative KI ist bereits jetzt in der Lage, komplexe Informationen effizient zu analysieren und prägnante Zusammenfassungen zu erstellen. Mit den richtigen Anweisungen, auch „Prompts“ genannt, lassen sich auch Schlüsseltrends aus den Datenmengen ableiten, wie etwa eine steigende Lebenserwartung oder veränderte Gesundheitsrisiken als Ausgangspunkt zum Abgleich mit den aktuellen Versicherungsprodukten.

So beeindruckend diese Technologie auch ist, birgt ihr Einsatz auch einige Herausforderungen.

Datenschutz beachten

Das wohl bekannteste generative KI-Tool ist ChatGPT. ChatGPT basiert auf dem Large Language Model (LLM) GPT, kurz für Generative Pre-trained Transformer.

LLMs wie GPT wurden von ihren Herstellern mit riesigen Datenmengen trainiert, die aus unterschiedlichsten Quellen wie Büchern, Artikeln und Webseiten stammen. Öffentlich-zugängliche Tools wie ChatGPT generieren aber genau aus diesen Quellen ihre Antworten. Sie haben keinen Zugang zu Versicherungsstudien, außer Nutzer laden diese manuell hoch. Da es sich dabei um vertrauliche und sensible Informationen handelt, ist der Einsatz ohne Prüfung und Anpassung an die Compliance-Richtlinien nicht empfehlenswert. Denn es ist nicht vollends geklärt, was genau mit den Informationen geschieht. OpenAI etwa gibt an, die Eingaben zu speichern und eventuell mit Dritten zu teilen. Ob und wie diese aber ausgewertet und an wen sie weitergegeben werden, ist für Nutzer nicht ersichtlich. Gerade bei vertraulichen und sensiblen Daten dürfen Verarbeitung und Speicherung keine Blackbox sein. Unternehmen sollten daher genau prüfen, mit welchen Anbietern sie in diesem Bereich zusammenarbeiten und auch ihre Mitarbeiter beim Umgang mit KI-Tools aktiv schulen.

Datenhalluzinationen und fehlende Quellenangaben

Ein weiteres potenzielles Problem bei der Nutzung von öffentlich zugänglichen Large Language Models (LLMs) bei der Auswertung von Sicherheitsstudien ist, dass die Modelle die Trainingsdaten in die generierten Texte einfließen lassen können. Dies geschieht, weil LLMs auf Wahrscheinlichkeiten basierende Vorhersagen treffen, welches Wort oder welche Zeichenkette als Nächstes erscheinen sollte. Dabei wählen sie das Wort mit der höchsten Wahrscheinlichkeit aus, basierend auf den zuvor erlernten Mustern. Dieser Vorgang wiederholt sich für jedes neue Wort, bis ein vollständiger Text entsteht. In diesem Prozess kann es daher zu sogenannten „Datenhalluzinationen“ kommen, bei denen die Modelle Falschaussagen generieren, die aufgrund des flüssigen und kohärenten Schreibstils jedoch plausibel erscheinen. So können generierte Antworten unvollständige, veraltete oder schlichtweg falsche Informationen enthalten, was Versicherungsunternehmen möglicherweise zu Fehlentscheidungen verleitet.

Hinzu kommt noch, dass öffentlich zugängliche KI-Modelle, wie beispielsweise ChatGPT, keine oder nur unvollständige Quellenangaben machen. Da die Institution oder das Unternehmen, das das KI-Modell trainiert, ihre genauen Trainingsdaten meist unter Verschluss hält, haben Nutzer keine Möglichkeit, Antworten adäquat zu prüfen.

Um diese Risiken zu minimieren, sollten Unternehmen sicherstellen, dass sie LLMs einsetzen, die die geforderten Datenschutzrichtlinien einhalten und auch die Quellen ausweisen. Wichtig ist dabei, dass sie bei der Generierung ihrer Antworten nur auf Informationen aus dem Unternehmen zugreifen. So können sensible Daten geschützt, Halluzinationen verhindert und die Vorteile von Anwendungen der künstlichen Intelligenz voll ausschöpft werden.