CUAD: Automatische Vertragsprüfung mit NLP
510 Verträge, 13.000 Annotationen, 41 Klauseltypen. Was das größte Legal NLP Dataset für den Mittelstand leistet. Und wo es scheitert.
Aufbereitet von Stefan Preusler, Geschäftsführer
Rechtsanwälte verbringen etwa die Hälfte ihrer Arbeitszeit mit der Prüfung von Verträgen. Das Paper von Hendrycks et al. (2021) stellt CUAD vor, ein Dataset das zeigt, wie Sprachmodelle diese Aufgabe unterstützen können. Ohne den Anwalt zu ersetzen.
1. Der Kontext: Warum diese Forschung wichtig ist
Vertragsprüfung ist einer der zeitaufwendigsten Prozesse in Kanzleien. Laut CEB (2017) verbringen Anwälte in Großkanzleien etwa 50 Prozent ihrer Arbeitszeit damit, Verträge Seite für Seite zu lesen. Die Stundensätze liegen in den USA typischerweise bei 500 bis 900 Dollar. Für Unternehmen bedeutet das: Eine Transaktion kann allein für die Vertragsprüfung Hunderttausende Dollar kosten.
Dieses Problem betrifft nicht nur Großunternehmen. KMU und Privatpersonen können sich eine professionelle Prüfung oft nicht leisten. Viele unterzeichnen Verträge, ohne sie überhaupt gelesen zu haben. Das eröffnet Raum für missbräuchliche Klauseln und ungünstige Vertragsbedingungen.
Um diesen Engpass zu adressieren, stellen Hendrycks et al. (2021) das Contract Understanding Atticus Dataset (CUAD) vor. Das Dataset wurde im Rahmen von The Atticus Project, einer gemeinnützigen Organisation von Rechtsexperten, erstellt. Es umfasst 510 Verträge aus der EDGAR Datenbank der US Börsenaufsicht SEC, die in 25 verschiedene Vertragstypen unterteilt sind. Jeder Vertrag wurde von Rechtsexperten annotiert, um 41 verschiedene Klauseltypen zu identifizieren. Insgesamt enthält CUAD mehr als 13.000 Annotationen. Der geschätzte materielle Wert des Datasets liegt bei über 2 Millionen Dollar, da jede der 9.283 Seiten mindestens viermal geprüft wurde bei einem geschätzten Stundensatz von 500 Dollar.
2. Die Kernergebnisse
Ergebnis 1: Performance steigt massiv mit besseren Modellen
Die Autoren testen mehrere Transformer Modelle auf CUAD. BERT base (2018) erreicht lediglich 8,2 Prozent Precision bei 80 Prozent Recall. DeBERTa xlarge (2021) kommt auf 44,0 Prozent Precision bei gleichem Recall. Das ist eine Verbesserung um den Faktor 5,4 innerhalb von drei Jahren. Die Area Under the Precision Recall Curve (AUPR) steigt von 32,4 Prozent bei BERT auf 47,8 Prozent bei DeBERTa. Diese Zahlen zeigen, dass Fortschritte im Modelldesign direkt auf die Vertragsprüfung übertragbar sind.
Ergebnis 2: Datenmenge ist der größere Hebel als Modellgröße
Die Forscher untersuchen systematisch den Einfluss von Modellgröße und Trainingsdaten. ALBERT reicht von 11 Millionen (base) bis 223 Millionen Parametern (xxlarge). Der Performance Unterschied zwischen kleinstem und größtem Modell beträgt nur etwa 3 Prozent AUPR. Ähnliches gilt für BERT: base und large liegen praktisch gleichauf.
Deutlich größere Effekte zeigen sich bei der Datenmenge. Trainiert man RoBERTa base nur auf 3 Prozent der Verträge, erreicht man 27,6 Prozent AUPR. Mit 10 Prozent der Daten steigt die Performance auf 34,4 Prozent. Bei 30 Prozent sind es 39,2 Prozent. Und mit allen Daten kommt man auf 42,6 Prozent. Ein einziger Zehnerpotenzsprung in der Datenmenge bringt also 15 Prozent mehr AUPR. Das ist vergleichbar mit der gesamten Spanne zwischen dem besten und dem schlechtesten getesteten Modell. Das Ergebnis: Annotierte Daten sind derzeit wertvoller als reine Modellskalierung.
Ergebnis 3: Domain spezifisches Pretraining bringt wenig
Da Verträge eine eigene Sprache verwenden, testen die Autoren, ob Pretraining auf unmarkierten Verträgen hilft. Sie sammeln circa 8 GB Verträge aus EDGAR und trainieren RoBERTa base mit Masked Language Modeling. Das Ergebnis: AUPR steigt von 42,6 auf 45,2 Prozent, also nur 2,6 Prozent. Das zeigt, dass hochwertige Annotationen weit wichtiger sind als große Mengen unmarkierter Domain Daten.
Ergebnis 4: Performance variiert stark nach Klauseltyp
Nicht alle Klauseln sind gleich schwierig. DeBERTa xlarge erreicht für Document Name, Parties und Agreement Date nahezu 100 Prozent AUPR. Das sind einfache Extraktionsaufgaben. Am unteren Ende stehen Covenant Not To Sue, Right of First Refusal und Most Favored Nation mit nur etwa 20 Prozent AUPR. Diese Klauseln erfordern ein tieferes Verständnis des Vertragskontexts. Durchschnittlich sind nur 0,25 Prozent des Vertragstexts für eine einzelne Kategorie relevant. Das macht die Aufgabe zu einer Suche nach der Nadel im Heuhaufen.
Ergebnis 5: Die Aufgabenstruktur ist extraktives Question Answering
CUAD ist strukturell vergleichbar mit SQuAD 2.0. Für jede der 41 Kategorien stellt das Modell eine Frage an den Vertragstext und extrahiert die relevante Textpassage. Da Verträge bis zu über 100 Seiten lang sind, verwenden die Autoren ein Sliding Window, das den Text in überlappende Abschnitte aufteilt. Mehr als 99 Prozent dieser Fenster enthalten keine relevante Klausel. Diese extreme Klassenungleichgewicht macht das Training herausfordernd.
3. Ein konkretes Beispiel
Stellen Sie sich einen 47 Seiten langen Lizenzvertrag vor. Ein Rechtsanwalt muss prüfen, ob der Vertrag eine Klausel enthält, die das Recht auf Unterlizenzierung regelt. Ohne Hilfsmittel liest der Anwalt alle 47 Seiten. Mit einem auf CUAD trainierten Modell geschieht Folgendes:
Das Modell unterteilt den Vertrag in überlappende Abschnitte von je etwa 400 Wörtern. Für die Kategorie "License Grant" bewertet es jeden Abschnitt. In Abschnitt 23 findet es mit 94 Prozent Konfidenz den Satz: "Company grants to Investor a worldwide, royalty free, exclusive, irrevocable license (with the right to grant sublicenses)." Der Anwalt muss jetzt nur noch diesen einen Satz prüfen, statt 47 Seiten zu lesen.
Das funktioniert gut für eindeutige Klauseln. Bei komplexeren Kategorien wie "Most Favored Nation" schlägt das Modell jedoch mehrere Stellen vor, von denen einige falsch sind. Der Anwalt muss alle Vorschläge prüfen. Der Nutzen liegt im Filter, nicht im Ersatz.
4. Die Metriken verstehen
Die Forscher verwenden drei Kennzahlen. Die einfachste ist Precision at 80 Prozent Recall. Das bedeutet: Wenn das Modell so viele Klauseln vorschlägt, dass es 80 Prozent aller wirklich vorhandenen Klauseln findet, wie viel Prozent der Vorschläge sind dann richtig?
Eine Alltagsanalogie: Stellen Sie sich einen Wachmann vor, der 100 Kisten kontrollieren soll. In 20 Kisten ist etwas Verdächtiges. Der Wachmann markiert 40 Kisten als kontrollierenswert. Darunter sind 16 der 20 wirklich verdächtigen Kisten (80 Prozent Recall) und 24 falsche Alarme. Seine Precision beträgt 40 Prozent (16 richtige von 40 markierten). Das ist ungefähr das Niveau, das DeBERTa auf CUAD erreicht.
Die zweite Kennzahl ist AUPR, die Area Under the Precision Recall Curve. Sie fasst die Performance über alle möglichen Schwellenwerte zusammen und wird in Prozent angegeben. Die dritte Kennzahl ist Precision at 90 Prozent Recall. Hier findet das Modell mehr Klauseln, akzeptiert dafür aber mehr Fehlalarme.
5. Was die Forschung kritisch sieht
Limitation 1: Noch keine praxistaugliche Präzision
44,0 Prozent Precision bei 80 Prozent Recall bedeutet: Von 10 vorgeschlagenen Klauseln sind mehr als 5 falsch. Ein Anwalt müsste jeden Vorschlag prüfen. Bei 90 Prozent Recall sinkt die Precision auf 17,8 Prozent. Das heißt: Fast fünf von sechs Vorschlägen sind Fehlalarme. Für den produktiven Einsatz ist das noch nicht ausreichend.
Limitation 2: Nur Contract Analysis, nicht Counseling
Die Autoren unterscheiden zwei Ebenen der Vertragsprüfung. Die niedrigere Ebene ist die Contract Analysis: Finden von Klauseln, Bestimmen von Laufzeiten, Zuordnen von Parteien. Die höhere Ebene ist das Counseling: Bewertung von Risiken, Einordnung in den Geschäftskontext, Verhandlungsstrategie. CUAD deckt nur die erste Ebene ab. Risikobewertung erfordert Branchenwissen, das ein Sprachmodell nicht aus dem Text lernen kann.
Limitation 3: Fokus auf US Verträge aus EDGAR
Alle 510 Verträge stammen aus der EDGAR Datenbank der SEC. Das sind öffentlich eingereichte Verträge von börsennotierten Unternehmen. Sie sind komplexer und stärker verhandelt als der Durchschnitt aller Verträge. Deutsche Lieferverträge, AGBs, Mietverträge oder Arbeitsverträge sind nicht abgedeckt. Eine Übertragung auf andere Jurisdiktionen ist nicht validiert.
Limitation 4: Redacted Information und Qualitätsschwankungen
Viele Verträge enthalten geschwärzte Passagen, die als *** oder ___ markiert sind. Das Dataset behandelt diese Redactionen als Teil der Annotationen. Außerdem schwankt die Qualität der automatischen Extraktion stark zwischen Klauseltypen. Für einige Kategorien ist das Modell praktisch nutzlos.
6. Was das für KMUs bedeutet
Empfehlung 1: Vertragsanalyse als Filter nutzen, nicht als Ersatz
Die 80 Prozent Recall können einen Rechtsberater den Einstieg erleichtern. Statt 100 Seiten Seite für Seite zu lesen, muss der Berater nur die vom Modell markierten Stellen prüfen. Das spart 30 bis 50 Prozent der Zeit bei der ersten Durchsicht. Modelle können repetitive Klauseln identifizieren, die in jedem Vertrag des gleichen Typs vorkommen. Ein zentrales Repository, das diese Muster dokumentiert, bildet die Grundlage für spätere Automatisierung.
Empfehlung 2: Eigene Annotationen aufbauen
Ein KMU mit wiederkehrenden Vertragstypen, etwa Lieferverträgen oder NDAs, kann eigene Annotationen sammeln. Nach 100 bis 200 annotierten Verträgen lässt sich ein brauchbares Modell trainieren. Die Forschung zeigt: Ein einziger Zehnerpotenzsprung in der Datenmenge bringt 15 Prozent mehr AUPR. Das heißt: Der eigene Datensatz ist der wichtigste Erfolgsfaktor. Spezialisierte Systeme können diese Muster in bestehende Workflows einbinden, ohne die Infrastruktur zu verändern.
Empfehlung 3: Mit einfachen Klauseltypen starten
Document Name, Parties, Agreement Date, Effective Date und Expiration Date sind nahezu fehlerfrei automatisierbar. Diese fünf Kategorien allein ersparen bei jedem Vertrag das manuelle Abschreiben von Stammdaten. Restrictive Covenants und Revenue Risks sind noch zu unzuverlässig für den automatischen Einsatz. Eine regelbasierte Logik kann die sicheren Ergebnisse festzurren und unsichere Vorschläge automatisch an einen Menschen weiterleiten.
7. Die wichtigsten Klauseltypen im Überblick
CUAD deckt 41 Klauseltypen ab. Die folgenden zehn sind für den Mittelstand am relevantesten:
| Klauseltyp | Beschreibung | Automatisierbarkeit |
|---|---|---|
| Document Name | Name des Vertragsdokuments | Sehr hoch (nahezu 100%) |
| Parties | Die Vertragsparteien | Sehr hoch (nahezu 100%) |
| Agreement Date | Datum der Vertragsunterzeichnung | Sehr hoch (nahezu 100%) |
| Effective Date | Datum des Vertragsbeginns | Sehr hoch (nahezu 100%) |
| Expiration Date | Datum des Vertragsendes | Sehr hoch (nahezu 100%) |
| Governing Law | Anwendbares Recht des Vertrags | Hoch (70 bis 80%) |
| License Grant | Umfang der eingeräumten Lizenz | Mittel (40 bis 50%) |
| Non Compete | Wettbewerbsverbotsklausel | Niedrig (20 bis 30%) |
| Most Favored Nation | Meistbegünstigungsklausel | Sehr niedrig (unter 20%) |
| Covenant Not To Sue | Verzicht auf Klageführung | Sehr niedrig (unter 20%) |
8. Quelle und Kontext
Original Paper: Hendrycks, D., Burns, C., Chen, A., & Ball, S. (2021). CUAD: An Expert Annotated NLP Dataset for Legal Contract Review. 35th Conference on Neural Information Processing Systems (NeurIPS 2021), Track on Datasets and Benchmarks.
arXiv: https://arxiv.org/abs/2103.06268
Dataset: https://www.atticusprojectai.org/cuad
Code: https://github.com/TheAtticusProject/cuad/
Zusammenfassung erstellt von: NaveSight Research Team
Haftungsausschluss: Diese Zusammenfassung ist eine redaktionelle Aufbereitung und ersetzt nicht das Original Paper. Für wissenschaftliche Zwecke zitieren Sie bitte die Originalquelle.
Verwandte Inhalte
- KI Vertragsprüfung im Mittelstand — Praxisleitfaden für die Umsetzung
Erfahren Sie, wo Ihr Unternehmen in Sachen automatischer Vertragsanalyse steht.
In 30 Minuten bewerten wir gemeinsam Ihren Reifegrad und zeigen Ihnen den nächsten konkreten Schritt. Ohne Verpflichtung.
Kostenlosen Maturity Check startenUnsere Garantie: ein konkreter Aktionsplan, ob mit NaveSight oder ohne.
Wir führen 10 Maturity Checks pro Monat durch. Priorisierte Bearbeitung: 48 Stunden.