Die drei Lügen der KI-Vertragsprüfung
Olava Extract erreicht 84 von 100 korrekten Antworten bei der Vertragsprüfung — und schlägt damit GPT-5.4. Aber alle Testverträge sind englisch. Wir suchen Kanzleien und Rechtsabteilungen für den ersten deutschen Praxistest.
Von Stefan Preusler, Geschäftsführer
Die Forschungslinie ist beeindruckend. CUAD (2021) beweist, dass Computer Verträge lesen können. ContractEval (2025) zeigt, dass kommerzielle Modelle führen. Olava Extract (2026) demonstriert, dass ein kleines spezialisiertes Modell die größten Systeme schlagen kann. Aber für deutsche Kanzleien stellt sich eine grundlegendere Frage: Das deutsche Äquivalent existiert noch nicht. Es müsste erst gebaut werden — mit deutschen Verträgen, deutschen Klauseln, deutschem Recht.
Gilt das auch für deutsches Vertragsrecht?
Die Frage, die jeder deutsche Jurist sofort stellt, lässt sich kurz beantworten: Noch nicht erforscht.
Die Studie testet ausschließlich englische Verträge aus der EDGAR-Datenbank der US-Börsenaufsicht. Deutsche Verträge verwenden andere Klauseltypen, andere Formulierungen und andere Strukturen. Ein deutsches Arbeitsvertragsrecht mit seinen tarifvertraglichen Bezügen hat wenig gemein mit einem US-Lizenzvertrag. Eine deutsche AGB mit ihren Transparenzgeboten nach § 307 BGB folgt anderen Regeln als ein US-Kaufvertrag.
Das bedeutet nicht, dass die Ergebnisse irrelevant sind. Das Prinzip gilt: Ein auf Verträge trainiertes Modell ist besser als ein Allzweckmodell. Aber die konkreten Zahlen — 84 von 100 korrekten Antworten — gelten nur für englische SEC-Verträge. Für deutsche Verträge müsste ein eigenes Modell mit deutschen Trainingsdaten trainiert werden.
Die gute Nachricht: Das Training ist möglich. Olava zeigt, dass ein kompaktes Modell mit gezieltem Training auf spezialisierten Daten ein großes Allzweckmodell schlagen kann. Die schlechte Nachricht: Das deutsche Äquivalent existiert noch nicht. Es müsste erst gebaut werden.
Die Chronologie: 2021 bis 2026
Die Forschungslinie beginnt 2021 mit CUAD. Hendrycks et al. veröffentlichen das erste große Dataset für die automatische Vertragsanalyse: 510 Verträge, 41 Klauseltypen, 13.000 Annotationen. Der Wert: über 2 Millionen Dollar an annotierter Arbeitszeit. Das Ergebnis: Ein Computerprogramm findet Klauseln in etwa 44 von 100 Fällen korrekt. Für die Praxis noch nicht ausreichend, aber ein Beweis des Prinzips.
2025 folgt ContractEval. Liu et al. testen 19 Sprachmodelle, von GPT 4.1 bis Qwen3 8B. Das Ergebnis: Kommerzielle Modelle wie GPT führen mit etwa 64 von 100 korrekten Antworten. Frei verfügbare Modelle ohne Spezialtraining kommen maximal auf 54 von 100. Und sie übersehen in bis zu 30 Prozent der Fälle Klauseln, die eindeutig im Vertrag stehen. Im Rechtswesen die gefährlichste Fehlerquelle.
2026 kommt Olava Extract. Martin et al. trainieren ein kompaktes Modell speziell für Vertragsprüfung und erreichen 84 von 100 korrekten Antworten. Damit schlägt es GPT-5.4, Claude Opus 4.6 und Gemini 2.5 Pro. Nicht knapp, sondern mit der höchsten Zuverlässigkeit aller getesteten Modelle. Und das bei Kosten, die um 78 bis 97 Prozent niedriger liegen.
Das ist, was die Studie testet. Und was sie nicht testet: 24 Verträge, allesamt auf Englisch, allesamt aus US-Börsenunterlagen. Kein deutscher Arbeitsvertrag, keine AGB, kein Handelsvertrag. Kein direkter Vergleich mit menschlichen Prüfern. Die Ergebnisse gelten für SEC-EDGAR-Verträge. Für alles andere ist die Übertragbarkeit unbewiesen.
Lüge 1: Größere Modelle sind besser
Seit 2023 dominiert ein Narrativ die KI-Diskussion: Größere Modelle sind bessere Modelle. GPT-4 schlägt GPT-3.5. GPT-5.4 schlägt GPT-4. Claude Opus schlägt Claude Sonnet. Die Logik scheint einfach. Mehr Parameter bedeuten mehr Wissen, mehr Fähigkeiten, mehr Präzision.
CUAD widerlegt das schon 2021. Die Forscher testen verschiedene Modellgrößen. Der Unterschied zwischen dem kleinsten und dem größten Modell: etwa 3 Prozent. Deutlich größere Effekte zeigen sich bei der Datenmenge. Wer zehnmal mehr Verträge zum Training verwendet, verbessert die Ergebnisse um 15 Prozent.
ContractEval bestätigt das 2025. Ein acht Milliarden Parameter Modell erreicht 53 von 100 korrekten Antworten. Das 14 Milliarden Parameter Modell derselben Familie erreicht nur 47. Der Größere schlägt den Kleineren. Der Grund: Fehlendes Training auf juristischen Texten.
Olava liefert 2026 den endgültigen Beweis. Ein kompaktes Modell mit gezieltem Training auf Vertragsdaten erreicht 84 von 100 korrekten Antworten. GPT-5.4 liegt bei etwa 80. Claude Opus 4.6 bei etwa 79. Gemini 2.5 Pro bei etwa 77. Das kleinste Modell im Test schlägt die größten. Nicht weil es schneller ist. Sondern weil es bei der Kernaufgabe besser arbeitet.
Die Konsequenz: Die Größe des Modells ist der falsche Maßstab. Entscheidend ist die Qualität und Relevanz der Trainingsdaten.
"Ein kompaktes Modell mit gezieltem Training auf eigenen Daten kann ein 50 bis 100 mal größeres Allzweckmodell schlagen."
Lüge 2: Open Source ist nicht präzise genug für das Rechtswesen
Die zweite Lüge kommt aus der Angst. Frei verfügbare Modelle halluzinieren. Sie übersehen Klauseln. Sie sind nicht für kritische Anwendungen geeignet. Das Rechtswesen erfordert Zuverlässigkeit. Nur kommerzielle Modelle bieten die nötige Präzision.
ContractEval zeigt, woher diese Angst kommt. Frei verfügbare Modelle ohne Spezialtraining übersehen in bis zu 30 Prozent der Fälle Klauseln, die eindeutig im Vertrag stehen. Fast jedes dritte Mal, wenn eine Haftungsklausel oder ein Kündigungsrecht vorhanden ist, behauptet das Modell, es gäbe nichts. Im Rechtswesen ist das tatsächlich unbrauchbar.
Aber: ContractEval testet alle Modelle ohne vorheriges Training auf juristischen Texten. Die Forscher vermuten selbst, dass frei verfügbare Modelle mit gezieltem Training deutlich besser werden könnten.
Olava beweist, dass die Vermutung stimmt. Olava Extract erreicht die höchste Zuverlässigkeit aller 26 getesteten Modelle. Von 100 Vorschlägen sind 81 korrekt. Bei GPT-5.4 sind es nur 76. Bei Claude Opus 4.6 nur 75. Bei Gemini 3.1 Pro Preview nur 78.
Olava ist nicht nur präzise genug. Im Test ist es präziser als alle 26 konkurrierenden Modelle. Und es läuft auf eigener Hardware. Keine API. Keine Datenweitergabe. Keine Abhängigkeit.
Lüge 3: KI-Vertragsprüfung kostet Millionen
Die dritte Lüge kommt aus der Kostenangst. KI ist teuer. Große Modelle erfordern teure Hardware. API-Gebühren summieren sich. Nur Großkanzleien und Konzerne können sich das leisten. Der Mittelstand bleibt außen vor.
ContractEval zeigt die API-Realität. GPT 4.1 kostet etwa 50 Dollar für den Test von 4.128 Klauseln. Für eine Due Diligence mit Tausenden Klauseln sind das schnell mehrere Hundert Dollar pro Transaktion. Für Großkanzleien mit Stundensätzen von 500 bis 900 Dollar ist das vernachlässigbar. Für eine mittelständische Kanzlei mit 5 Mitarbeitern ist das ein Monatsbudget.
Olava verändert die Kostenstruktur grundlegend. Die Forscher haben die Kosten pro Vertrag verglichen. Ein Vertrag, der bei GPT-5.4 zwei Dollar kostet, kostet beim eigenen System zwischen vier und 44 Cent. Die Ersparnis: 78 bis 97 Prozent.
Die Hardwarekosten sind real. Ein leistungsfähiger Server für das eigene System kostet etwa 50.000 Euro. Das ist für eine kleine Kanzlei eine Investition. Aber Cloud-Hosting ist möglich. Und bei hohem Vertragsvolumen amortisiert sich die Investition schnell. Wer täglich hunderte Verträge prüft, spart innerhalb weniger Monate die Anschaffungskosten ein. Wer nur gelegentlich prüft, kann auf Cloud-Hosting setzen und trotzdem sparen.
Die wichtigere Nachricht ist: Eine Kostensenkung um 78 bis 97 Prozent bedeutet, dass KI-Vertragsprüfung für den Mittelstand wirtschaftlich wird. Die Amortisation bei hohem Volumen liegt bei wenigen Monaten. Das ist keine Prognose. Das sind die Kosten aus der Studie.
Was die Studie nicht beantwortet
Die Forschung ist eindeutig: Ein kompaktes, spezialisiertes Modell schlägt ein großes Allzweckmodell bei der Vertragsprüfung. Die Kosten sinken um 78 bis 97 Prozent. Die Zuverlässigkeit steigt. Aber die Studie beantwortet nicht die Frage, die für deutsche Kanzleien zählt.
Das deutsche Äquivalent existiert noch nicht. Nicht weil es unmöglich wäre. Sondern weil niemand die ersten 1.000 deutschen Verträge zusammengetragen hat, um ein Modell zu trainieren.
Hier entsteht eine Handlungslücke. Wer sie als Erster schließt, definiert den Standard für KI-Vertragsprüfung im deutschen Rechtsraum.
Jetzt gemeinsam testen
Wenn dieser Artikel für Sie relevant ist, leiten Sie ihn gerne an Kollegen weiter. Wir suchen Partner für den ersten deutschen Praxistest und freuen uns über Kontakte in Kanzleien und Rechtsabteilungen.
Interesse? stefan.preusler@leaplytics.de
Verwandte Inhalte
- Olava Extract: Wie ein kleines spezialisiertes Modell GPT-5.4 bei der Vertragsprüfung schlägt — Die vollständige Zusammenfassung des Papers
- ContractEval: Frei verfügbare Modelle vs. GPT bei der Vertragsprüfung — Der Benchmark, der zeigte, dass kommerzielle Modelle ohne Training führen
- CUAD: Automatische Vertragsprüfung mit Sprachmodellen — Das Vorgänger-Dataset, auf dem die gesamte Forschungslinie basiert
- KI Vertragsprüfung im Mittelstand — Praxisleitfaden für die Umsetzung