Praxistest KI für D&O: Welche Qualität hat die KI-gestützte Datenextraktion aus E-Mail-Anfragen?

Große Sprachmodelle wie z. B. Chat GPT von Open AI oder Gemini von Google beeindrucken durch ihre Geschwindigkeit und Leistung. Für Unternehmen ist entscheidend: Liefert die KI im Alltag präzise, verlässliche Ergebnisse – auch bei komplexen fachlichen Aufgaben? Für diese Aufgabenstellung hat mgm das AI Evaluation Framework entwickelt. Es misst die Qualität von KI-Lösungen objektiv, strukturiert und praxisnah. Eine Beispielanwendung aus dem Industrieversicherungsbereich (Financial Lines) zeigt, wie das konkret funktioniert.

AI-Assistent für Angebotsanfragen im D&O-Kontext

Eingehende E-Mails von Maklern oder Vertriebspartnern landen täglich im Posteingang der Underwriterinnen und Underwriter. Sie enthalten in der Regel unstrukturierte Informationen – verteilt auf Fließtext und Dateianhänge wie z. B. Bilanzen, G+V, Risikoberichte oder bestehende Policen. Der KI-gestützte E-Mail-Assistent analysiert diese Inhalte und extrahiert automatisch die relevanten Daten. Ziel: schnellere Bearbeitung, konsistente Qualität, weniger manuelle Arbeit.

Beispiel: Angebotsanfrage per Email beim Makler

Qualität messen – strukturiert und differenziert

Das mgm AI Evaluation Framework überprüft die Leistung des Assistenten in drei Dimensionen:

  1. Output-Qualität: Stimmen die extrahierten Informationen? Sind sie korrekt und vollständig?
  2. Business-Kontext: Erfüllt der Assistent die fachlichen Anforderungen – etwa beim Auslesen von Deckungssummen oder beim Erkennen relevanter Vertragsdetails?
  3. Risiken: Wie gravierend sind Fehler, wenn z. B. Daten nicht oder falsch erkannt werden?

Diese Systematik schafft Transparenz – und eine Grundlage für gezielte Verbesserungen.

Mehr zur Funktionsweise des mgm AI Evaluation Frameworks: Effiziente KI-Optimierung mit dem mgm AI Evaluation Framework

Leistungscheck: So hat die KI abgeschnitten

Für die Evaluation wurden 100 reale E-Mail-Fälle mit verschiedenen LLM-Varianten von OpenAI verarbeitet – darunter GPT-4o, GPT-4o-mini und GPT-3-mini. Verglichen wurde sowohl die Leistung der Modelle als auch die Hostingvarianten (OpenAI vs. Private Cloud Instanz in Microsoft Azure). Diese Modelle wurden aufgrund des Preis-/Leistungsverhältnisses gewählt und der Verfügbarkeit als private Cloud Instanz. Die Bewertung wurde mithilfe eines individuellen Schulnotensystems von 1-6 (Details siehe unten) durchgeführt.

Das Ergebnis:

Im Schnitt lag die Bewertung bei einer Schulnote von 2+. Die beste Variante – GPT-4o – erreichte sogar eine 1-. Unterschiede zwischen den Hosting-Optionen „OpenAI“ und „Microsoft Azure“ gab es keine. Die KI arbeitet also unabhängig vom Hosting-Setup stabil.

Für die Benotung mit Schulnoten kamen zwei Bewertungsansätze zum Einsatz:

  • Categorical Schoolgrade: Gewichtung der Datenfelder nach fachlicher Relevanz
  • Human Like Schoolgrade: Notenvergabe anhand von Expertenbeispielen

Der Unterschied beider Metriken war nur minimal und bewegte sich im Rahmen einer halben Schulnote.

Fehler sichtbar machen, Optimierung gezielt steuern

Die große Stärke des Frameworks liegt in der präzisen Fehleranalyse. Es identifiziert typische Schwachstellen – zum Beispiel sogenannte „versteckte Halluzinationen“: Die KI erzeugt plausible, aber faktisch falsche Aussagen. Oder: Sie erkennt Daten in Anhängen nicht korrekt bzw. übersieht diese – ein Problem nicht nur bei Underwriting-relevanten Informationen.

Diese Erkenntnisse flossen direkt in die Weiterentwicklung des AI-Assistenten:

  • Anpassung von Prompts
  • bessere Retrieval-Strategien
  • gezielte Fine-Tuning-Maßnahmen, um Grenzfälle besser zu erkennen

Warum ein gemeinsames Notensystem so wichtig ist

Damit Produktteams, Entwickler und Fachexperten effektiv zusammenarbeiten, brauchen sie ein gemeinsames Verständnis für die Bewertung von KI-Ergebnissen. Deshalb bietet das Framework ein adaptives Schulnotensystem (1 bis 6), das sich individuell anpassen lässt: Noten haben eine stark subjektive Komponente und nicht für jeden bedeutet eine „2-“ dasselbe.

Methode 1: Human Like Schoolgrade

Fachexperten vergeben Noten auf Basis von Beispielergebnissen der KI. So entsteht ein konkretes Bewertungsmuster.

Methode 2: Categorical Schoolgrade

Jedes Datenfeld erhält eine individuelle fachliche Gewichtung. Risikorelevante Felder – z.B. die Branche – zählen stärker als weniger kritische wie die Hausnummer. Diese Gewichtung ist stark vom Anwendungsfall abhängig – im vertrieblichen Kontext können bestimmte Daten eine andere Relevanz haben als in Bestandsprozessen. Auch dies kann im Evaluation-Framework simuliert bzw. getestet werden.

Categorical Schoolgrades – Noten durch fachliche Gewichtung der einzelnen Datenfelder

Beide Methoden laufen in drei Schritten ab:

  1. Definition: Experten legen Beispiele bzw. Gewichtungen fest
  2. Training: Das Framework lernt, diese Kriterien auf weitere Fälle anzuwenden
  3. Automatisierung: Die KI-Ergebnisse werden auf größere Datenmengen angewendet– nachvollziehbar und objektiv

Die Ergebnisse werden im Detail auf Feldebene aufbereitet und als zusammengefasste Schulnote ausgegeben. Das schafft Transparenz und Vergleichbarkeit – z. B. zwischen verschiedenen AI-Modellen.

KI gezielt im Prozess einsetzen

Perfekte KI gibt es nicht. Wichtig ist, ihre Leistungsfähigkeit im jeweiligen fachlichen Kontext genau bewerten zu können und sie dort einzusetzen, wo sie abhängig von der Qualiätät einen Mehrwert bringt. Zum Beispiel bei der Priorisierung eingehender Anfragen: Welche Anfragen sind vielversprechend? Wo fehlen Daten? Wo verbergen sich Risiken?

Auf dieser Datenbasis lassen sich z. B. auch automatisierte Rückfragen erzeugen: „Anbei eine Übersicht der bereits erfassten Risikodaten  – bitte ergänzen sie noch die folgenden Angaben…“

Die inidividuelle Risikoprüfung bleibt beim Experten – aber die Vorarbeit der Datenerfassung ist deutlich schneller erledigt.

Fazit:

Das mgm AI Evaluation Framework schafft Klarheit in einem komplexen Feld. Es macht KI-Leistung messbar, Fehler sichtbar und Optimierung steuerbar.

Du willst mehr über KI-Qualität in der Praxis erfahren oder dich zu konkreten Einsatzszenarien austauschen? Dann verbinde dich mit Ansgar Knipschild auf LinkedIn – dort teilt er regelmäßig Einblicke und Erfahrungswerte rund um LLMs, Evaluation und produktive KI-Nutzung.