Forschung

CUAD: Automatische Vertragsprüfung mit NLP

510 Verträge, 13.000 Annotationen, 41 Klauseltypen. Was das größte Legal NLP Dataset für den Mittelstand leistet. Und wo es scheitert.

Aufbereitet von Stefan Preusler, Geschäftsführer

Rechtsanwälte verbringen etwa die Hälfte ihrer Arbeitszeit mit der Prüfung von Verträgen. Das Paper von Hendrycks et al. (2021) stellt CUAD vor, ein Dataset das zeigt, wie Sprachmodelle diese Aufgabe unterstützen können. Ohne den Anwalt zu ersetzen.

1. Der Kontext: Warum diese Forschung wichtig ist

Vertragsprüfung ist einer der zeitaufwendigsten Prozesse in Kanzleien. Laut CEB (2017) verbringen Anwälte in Großkanzleien etwa 50 Prozent ihrer Arbeitszeit damit, Verträge Seite für Seite zu lesen. Die Stundensätze liegen in den USA typischerweise bei 500 bis 900 Dollar. Für Unternehmen bedeutet das: Eine Transaktion kann allein für die Vertragsprüfung Hunderttausende Dollar kosten.

Dieses Problem betrifft nicht nur Großunternehmen. KMU und Privatpersonen können sich eine professionelle Prüfung oft nicht leisten. Viele unterzeichnen Verträge, ohne sie überhaupt gelesen zu haben. Das eröffnet Raum für missbräuchliche Klauseln und ungünstige Vertragsbedingungen.

Um diesen Engpass zu adressieren, stellen Hendrycks et al. (2021) das Contract Understanding Atticus Dataset (CUAD) vor. Das Dataset wurde im Rahmen von The Atticus Project, einer gemeinnützigen Organisation von Rechtsexperten, erstellt. Es umfasst 510 Verträge aus der EDGAR Datenbank der US Börsenaufsicht SEC, die in 25 verschiedene Vertragstypen unterteilt sind. Jeder Vertrag wurde von Rechtsexperten annotiert, um 41 verschiedene Klauseltypen zu identifizieren. Insgesamt enthält CUAD mehr als 13.000 Annotationen. Der geschätzte materielle Wert des Datasets liegt bei über 2 Millionen Dollar, da jede der 9.283 Seiten mindestens viermal geprüft wurde bei einem geschätzten Stundensatz von 500 Dollar.

2. Die Kernergebnisse

Ergebnis 1: Performance steigt massiv mit besseren Modellen

Die Autoren testen mehrere Transformer Modelle auf CUAD. BERT base (2018) erreicht lediglich 8,2 Prozent Precision bei 80 Prozent Recall. DeBERTa xlarge (2021) kommt auf 44,0 Prozent Precision bei gleichem Recall. Das ist eine Verbesserung um den Faktor 5,4 innerhalb von drei Jahren. Die Area Under the Precision Recall Curve (AUPR) steigt von 32,4 Prozent bei BERT auf 47,8 Prozent bei DeBERTa. Diese Zahlen zeigen, dass Fortschritte im Modelldesign direkt auf die Vertragsprüfung übertragbar sind.

Ergebnis 2: Datenmenge ist der größere Hebel als Modellgröße

Die Forscher untersuchen systematisch den Einfluss von Modellgröße und Trainingsdaten. ALBERT reicht von 11 Millionen (base) bis 223 Millionen Parametern (xxlarge). Der Performance Unterschied zwischen kleinstem und größtem Modell beträgt nur etwa 3 Prozent AUPR. Ähnliches gilt für BERT: base und large liegen praktisch gleichauf.

Deutlich größere Effekte zeigen sich bei der Datenmenge. Trainiert man RoBERTa base nur auf 3 Prozent der Verträge, erreicht man 27,6 Prozent AUPR. Mit 10 Prozent der Daten steigt die Performance auf 34,4 Prozent. Bei 30 Prozent sind es 39,2 Prozent. Und mit allen Daten kommt man auf 42,6 Prozent. Ein einziger Zehnerpotenzsprung in der Datenmenge bringt also 15 Prozent mehr AUPR. Das ist vergleichbar mit der gesamten Spanne zwischen dem besten und dem schlechtesten getesteten Modell. Das Ergebnis: Annotierte Daten sind derzeit wertvoller als reine Modellskalierung.

Ergebnis 3: Domain spezifisches Pretraining bringt wenig

Da Verträge eine eigene Sprache verwenden, testen die Autoren, ob Pretraining auf unmarkierten Verträgen hilft. Sie sammeln circa 8 GB Verträge aus EDGAR und trainieren RoBERTa base mit Masked Language Modeling. Das Ergebnis: AUPR steigt von 42,6 auf 45,2 Prozent, also nur 2,6 Prozent. Das zeigt, dass hochwertige Annotationen weit wichtiger sind als große Mengen unmarkierter Domain Daten.

Ergebnis 4: Performance variiert stark nach Klauseltyp

Nicht alle Klauseln sind gleich schwierig. DeBERTa xlarge erreicht für Document Name, Parties und Agreement Date nahezu 100 Prozent AUPR. Das sind einfache Extraktionsaufgaben. Am unteren Ende stehen Covenant Not To Sue, Right of First Refusal und Most Favored Nation mit nur etwa 20 Prozent AUPR. Diese Klauseln erfordern ein tieferes Verständnis des Vertragskontexts. Durchschnittlich sind nur 0,25 Prozent des Vertragstexts für eine einzelne Kategorie relevant. Das macht die Aufgabe zu einer Suche nach der Nadel im Heuhaufen.

Ergebnis 5: Die Aufgabenstruktur ist extraktives Question Answering

CUAD ist strukturell vergleichbar mit SQuAD 2.0. Für jede der 41 Kategorien stellt das Modell eine Frage an den Vertragstext und extrahiert die relevante Textpassage. Da Verträge bis zu über 100 Seiten lang sind, verwenden die Autoren ein Sliding Window, das den Text in überlappende Abschnitte aufteilt. Mehr als 99 Prozent dieser Fenster enthalten keine relevante Klausel. Diese extreme Klassenungleichgewicht macht das Training herausfordernd.

3. Ein konkretes Beispiel

Stellen Sie sich einen 47 Seiten langen Lizenzvertrag vor. Ein Rechtsanwalt muss prüfen, ob der Vertrag eine Klausel enthält, die das Recht auf Unterlizenzierung regelt. Ohne Hilfsmittel liest der Anwalt alle 47 Seiten. Mit einem auf CUAD trainierten Modell geschieht Folgendes:

Das Modell unterteilt den Vertrag in überlappende Abschnitte von je etwa 400 Wörtern. Für die Kategorie "License Grant" bewertet es jeden Abschnitt. In Abschnitt 23 findet es mit 94 Prozent Konfidenz den Satz: "Company grants to Investor a worldwide, royalty free, exclusive, irrevocable license (with the right to grant sublicenses)." Der Anwalt muss jetzt nur noch diesen einen Satz prüfen, statt 47 Seiten zu lesen.

Das funktioniert gut für eindeutige Klauseln. Bei komplexeren Kategorien wie "Most Favored Nation" schlägt das Modell jedoch mehrere Stellen vor, von denen einige falsch sind. Der Anwalt muss alle Vorschläge prüfen. Der Nutzen liegt im Filter, nicht im Ersatz.

4. Die Metriken verstehen

Die Forscher verwenden drei Kennzahlen. Die einfachste ist Precision at 80 Prozent Recall. Das bedeutet: Wenn das Modell so viele Klauseln vorschlägt, dass es 80 Prozent aller wirklich vorhandenen Klauseln findet, wie viel Prozent der Vorschläge sind dann richtig?

Eine Alltagsanalogie: Stellen Sie sich einen Wachmann vor, der 100 Kisten kontrollieren soll. In 20 Kisten ist etwas Verdächtiges. Der Wachmann markiert 40 Kisten als kontrollierenswert. Darunter sind 16 der 20 wirklich verdächtigen Kisten (80 Prozent Recall) und 24 falsche Alarme. Seine Precision beträgt 40 Prozent (16 richtige von 40 markierten). Das ist ungefähr das Niveau, das DeBERTa auf CUAD erreicht.

Die zweite Kennzahl ist AUPR, die Area Under the Precision Recall Curve. Sie fasst die Performance über alle möglichen Schwellenwerte zusammen und wird in Prozent angegeben. Die dritte Kennzahl ist Precision at 90 Prozent Recall. Hier findet das Modell mehr Klauseln, akzeptiert dafür aber mehr Fehlalarme.

5. Was die Forschung kritisch sieht

Limitation 1: Noch keine praxistaugliche Präzision

44,0 Prozent Precision bei 80 Prozent Recall bedeutet: Von 10 vorgeschlagenen Klauseln sind mehr als 5 falsch. Ein Anwalt müsste jeden Vorschlag prüfen. Bei 90 Prozent Recall sinkt die Precision auf 17,8 Prozent. Das heißt: Fast fünf von sechs Vorschlägen sind Fehlalarme. Für den produktiven Einsatz ist das noch nicht ausreichend.

Limitation 2: Nur Contract Analysis, nicht Counseling

Die Autoren unterscheiden zwei Ebenen der Vertragsprüfung. Die niedrigere Ebene ist die Contract Analysis: Finden von Klauseln, Bestimmen von Laufzeiten, Zuordnen von Parteien. Die höhere Ebene ist das Counseling: Bewertung von Risiken, Einordnung in den Geschäftskontext, Verhandlungsstrategie. CUAD deckt nur die erste Ebene ab. Risikobewertung erfordert Branchenwissen, das ein Sprachmodell nicht aus dem Text lernen kann.

Limitation 3: Fokus auf US Verträge aus EDGAR

Alle 510 Verträge stammen aus der EDGAR Datenbank der SEC. Das sind öffentlich eingereichte Verträge von börsennotierten Unternehmen. Sie sind komplexer und stärker verhandelt als der Durchschnitt aller Verträge. Deutsche Lieferverträge, AGBs, Mietverträge oder Arbeitsverträge sind nicht abgedeckt. Eine Übertragung auf andere Jurisdiktionen ist nicht validiert.

Limitation 4: Redacted Information und Qualitätsschwankungen

Viele Verträge enthalten geschwärzte Passagen, die als *** oder ___ markiert sind. Das Dataset behandelt diese Redactionen als Teil der Annotationen. Außerdem schwankt die Qualität der automatischen Extraktion stark zwischen Klauseltypen. Für einige Kategorien ist das Modell praktisch nutzlos.

6. Was das für KMUs bedeutet

Empfehlung 1: Vertragsanalyse als Filter nutzen, nicht als Ersatz

Die 80 Prozent Recall können einen Rechtsberater den Einstieg erleichtern. Statt 100 Seiten Seite für Seite zu lesen, muss der Berater nur die vom Modell markierten Stellen prüfen. Das spart 30 bis 50 Prozent der Zeit bei der ersten Durchsicht. Modelle können repetitive Klauseln identifizieren, die in jedem Vertrag des gleichen Typs vorkommen. Ein zentrales Repository, das diese Muster dokumentiert, bildet die Grundlage für spätere Automatisierung.

Empfehlung 2: Eigene Annotationen aufbauen

Ein KMU mit wiederkehrenden Vertragstypen, etwa Lieferverträgen oder NDAs, kann eigene Annotationen sammeln. Nach 100 bis 200 annotierten Verträgen lässt sich ein brauchbares Modell trainieren. Die Forschung zeigt: Ein einziger Zehnerpotenzsprung in der Datenmenge bringt 15 Prozent mehr AUPR. Das heißt: Der eigene Datensatz ist der wichtigste Erfolgsfaktor. Spezialisierte Systeme können diese Muster in bestehende Workflows einbinden, ohne die Infrastruktur zu verändern.

Empfehlung 3: Mit einfachen Klauseltypen starten

Document Name, Parties, Agreement Date, Effective Date und Expiration Date sind nahezu fehlerfrei automatisierbar. Diese fünf Kategorien allein ersparen bei jedem Vertrag das manuelle Abschreiben von Stammdaten. Restrictive Covenants und Revenue Risks sind noch zu unzuverlässig für den automatischen Einsatz. Eine regelbasierte Logik kann die sicheren Ergebnisse festzurren und unsichere Vorschläge automatisch an einen Menschen weiterleiten.

7. Die wichtigsten Klauseltypen im Überblick

CUAD deckt 41 Klauseltypen ab. Die folgenden zehn sind für den Mittelstand am relevantesten:

Klauseltyp	Beschreibung	Automatisierbarkeit
Document Name	Name des Vertragsdokuments	Sehr hoch (nahezu 100%)
Parties	Die Vertragsparteien	Sehr hoch (nahezu 100%)
Agreement Date	Datum der Vertragsunterzeichnung	Sehr hoch (nahezu 100%)
Effective Date	Datum des Vertragsbeginns	Sehr hoch (nahezu 100%)
Expiration Date	Datum des Vertragsendes	Sehr hoch (nahezu 100%)
Governing Law	Anwendbares Recht des Vertrags	Hoch (70 bis 80%)
License Grant	Umfang der eingeräumten Lizenz	Mittel (40 bis 50%)
Non Compete	Wettbewerbsverbotsklausel	Niedrig (20 bis 30%)
Most Favored Nation	Meistbegünstigungsklausel	Sehr niedrig (unter 20%)
Covenant Not To Sue	Verzicht auf Klageführung	Sehr niedrig (unter 20%)

8. Quelle und Kontext

Original Paper: Hendrycks, D., Burns, C., Chen, A., & Ball, S. (2021). CUAD: An Expert Annotated NLP Dataset for Legal Contract Review. 35th Conference on Neural Information Processing Systems (NeurIPS 2021), Track on Datasets and Benchmarks.

arXiv: https://arxiv.org/abs/2103.06268

Dataset: https://www.atticusprojectai.org/cuad

Code: https://github.com/TheAtticusProject/cuad/

Zusammenfassung erstellt von: NaveSight Research Team

Haftungsausschluss: Diese Zusammenfassung ist eine redaktionelle Aufbereitung und ersetzt nicht das Original Paper. Für wissenschaftliche Zwecke zitieren Sie bitte die Originalquelle.

Erfahren Sie, wo Ihr Unternehmen in Sachen automatischer Vertragsanalyse steht.

In 30 Minuten bewerten wir gemeinsam Ihren Reifegrad und zeigen Ihnen den nächsten konkreten Schritt. Ohne Verpflichtung.

Kostenlosen Maturity Check starten

Unsere Garantie: ein konkreter Aktionsplan, ob mit NaveSight oder ohne.

Wir führen 10 Maturity Checks pro Monat durch. Priorisierte Bearbeitung: 48 Stunden.