Forschung

ContractEval: Open Source LLMs vs. GPT bei der Vertragsprüfung

19 Sprachmodelle, 41 Klauseltypen, 4.128 Verträge. Wie gut schneiden Open Source Modelle gegen GPT 4.1 ab? Und was das für Kanzleien und Mittelstand bedeutet.

Aufbereitet von Stefan Preusler, Geschäftsführer

Kanzleien wollen Verträge automatisch prüfen, ohne sensible Daten an externe Server zu senden. Das Paper von Liu et al. (2025) stellt ContractEval vor, den ersten Benchmark, der Sprachmodelle lokal gegen GPT und Claude testet. Das Ergebnis: Open Source Modelle kommen nah ran, aber eine entscheidende Schwäche bleibt.

1. Der Kontext: Warum diese Forschung wichtig ist

Vertragsprüfung ist teuer. Eine mittlere Transaktion kostet allein für die Prüfung Hunderttausende Dollar. Junior Mitarbeiter lesen Seite für Seite, um Klauseln zu identifizieren, die ein Risiko bergen. Seit 2023 setzen viele Kanzleien auf große Sprachmodelle, die diese Aufgabe unterstützen. Das Problem: Proprietary Modelle wie GPT 4.1 oder Claude laufen auf Servern in den USA. Für Kanzleien bedeutet das einen Verstoß gegen die Mandantenverschwiegenheit.

Open Source Modelle wie Qwen, DeepSeek oder Gemma können lokal betrieben werden. Keine Daten verlassen das Unternehmen. Keine API Kosten pro Vertrag. Aber niemand wusste bisher, wie gut sie wirklich sind. ContractEval liefert die erste systematische Antwort. Die Forscher testen 19 Modelle auf 41 Klauseltypen aus dem CUAD Dataset. Jeder Testlauf misst drei Dinge: Findet das Modell die richtige Klausel? Extrahiert es sie präzise? Oder behauptet es einfach, es gäbe nichts zu finden?

Das Paper ist ein direkter Nachfolger von CUAD, dem 2021 veröffentlichten Dataset von Hendrycks et al. Während CUAD klassische Transformer Modelle wie BERT testete, evaluiert ContractEval die aktuelle Generation großer Sprachmodelle. Die Frage ist nicht mehr, ob Maschinen Verträge lesen können. Die Frage ist, welches Modell ein Kanzleichef unter seinem Schreibtisch betreiben kann, ohne Mandantendaten zu riskieren.

2. Die Kernergebnisse

Ergebnis 1: GPT 4.1 führt, aber Qwen3 8B kommt nah ran

Die Korrektheit der Extraktion misst der Benchmark mit F1 Scores. Ein F1 Score von 1,0 bedeutet perfekte Extraktion. Ein Wert von 0 bedeutet völliges Versagen. GPT 4.1 erreicht einen F1 Score von 0,641. Das kleinere GPT 4.1 mini schneidet mit 0,644 sogar noch minimal besser ab. Claude Sonnet 4 kommt auf 0,523, Gemini 2.5 Pro Preview auf 0,497.

Der beste Open Source Kandidat ist Qwen3 8B im Thinking Mode mit einem F1 Score von 0,540. Das ist nur etwa 16 Prozent unter GPT 4.1. Für ein lokal betriebenes Modell ohne API Kosten ist das beachtlich. Der gleiche Qwen3 8B ohne Thinking Mode erreicht 0,530. Das zeigt: Thinking Mode bringt bei diesem Modell eine leichte Verbesserung.

Andere Open Source Modelle fallen deutlich zurück. LLaMA 3.1 8B erreicht 0,392, Gemma 3 12B nur 0,391. Besonders ernüchternd sind DeepSeek R1 Distill Qwen 7B mit 0,071 und Qwen3 4B im Thinking Mode mit 0,075. Beide Modelle scheitern praktisch völlig an der Aufgabe. Größe allein ist also keine Garantie.

Ergebnis 2: Größere Open Source Modelle sind nicht automatisch besser

Innerhalb der Qwen3 Familie zeigt sich ein überraschendes Muster. Qwen3 8B schlägt Qwen3 14B. Der 8 Milliarden Parameter Variant erreicht einen F1 Score von 0,530. Der 14 Milliarden Parameter Variant kommt nur auf 0,473. Das bedeutet: Mehr Parameter bringen nicht automatisch bessere Ergebnisse bei der Vertragsprüfung.

Die Forscher erklären das mit dem Fehlen domain spezifischen Trainings. Größere Modelle haben mehr Kapazität, aber ohne gezieltes Training auf juristischen Texten nutzen sie diese Kapazität nicht. Das deutet darauf hin, dass Fine Tuning wichtiger sein könnte als reine Modellskalierung. Für Kanzleien bedeutet das: Ein 8 Milliarden Parameter Modell mit Fine Tuning könnte einen 70 Milliarden Parameter Basismodell schlagen.

Ergebnis 3: Thinking Mode verbessert die Präzision, verschlechtert aber die Korrektheit

Qwen3 Modelle bieten einen Thinking Mode, der schrittweise Schlussfolgerungen anregt. Das Ergebnis ist gemischt. Bei der Output Effectiveness, gemessen mit Jaccard Similarity, bringt Thinking Mode eine Verbesserung. Die extrahierten Textspannen sind präziser und enthalten weniger irrelevanten Kontext. Bei der Korrektheit, gemessen mit F1, zeigt sich ein anderes Bild.

Qwen3 4B ohne Thinking erreicht einen F1 Score von 0,411. Mit Thinking Mode bricht der Wert auf 0,075 ein. Das Modell überkompliziert einfache Extraktionsaufgaben. Qwen3 8B AWQ zeigt ein ähnliches Muster: ohne Thinking 0,475, mit Thinking 0,187. Die Forscher vermuten, dass Thinking Mode für reine Span Extraction Aufgaben ungeeignet ist. Die Modelle erklären zuviel, anstatt einfach den Satz zu zitieren.

Ergebnis 4: Open Source Modelle sind faul und sagen zu oft nichts gefunden

Die sogenannte Laziness Metrik misst, wie oft ein Modell fälschlicherweise behauptet, es gebe keine relevante Klausel. Bei proprietary Modellen ist diese Rate niedrig. Gemini 2.5 Pro liegt bei 1,1 Prozent, Claude Sonnet 4 bei 2,5 Prozent, GPT 4.1 bei 7,1 Prozent.

Bei Open Source Modellen sieht das anders aus. Qwen3 8B AWQ ohne Thinking Mode erreicht eine False Rate von 30,6 Prozent. Fast jedes dritte Mal, wenn eine Klausel im Vertrag steht, behauptet das Modell, es gäbe nichts. LLaMA 3.1 8B liegt bei 21,4 Prozent, Qwen3 8B FP8 bei 28,5 Prozent. Die einzige Ausnahme ist Gemma 3 4B mit 0 Prozent False Rate, allerdings bei einem F1 Score von nur 0,188.

Diese Faulheit ist im Rechtswesen besonders gefährlich. Eine übersehene Haftungsklausel oder ein verpasstes Kündigungsrecht kann Millionen kosten. Ein Modell, das zu oft keine Antwort gibt, ist für die Praxis weniger wert als ein Modell, das zu viel vorschlägt.

Ergebnis 5: Quantisierung spart GPU, kostet aber Korrektheit

Quantisierte Modelle reduzieren den GPU Speicherbedarf. Qwen3 8B in bfloat16 benötigt doppelt so viel Speicher wie die FP8 Variante und viermal so viel wie die AWQ Variante. Die Forscher vergleichen alle drei Varianten.

FP8 zeigt einen leichten Performance Drop. Der F1 Score sinkt von 0,530 auf 0,491. AWQ zeigt einen stärkeren Drop auf 0,475. Besonders problematisch ist die Kombination aus Quantisierung und Thinking Mode. Qwen3 8B AWQ mit Thinking erreicht nur noch einen F1 Score von 0,187. Das bedeutet: Wer ein quantisiertes Modell für schnelles Screening einsetzen will, sollte den Thinking Mode abschalten. Für kritische Klauseln bleibt das unquantisierte Modell die bessere Wahl.

3. Ein konkretes Beispiel

Stellen Sie sich einen 47 Seiten langen Lizenzvertrag vor. Die Frage lautet: Enthält der Vertrag eine Klausel, die eine Lizenz gewährt? Der menschliche Prüfer liest alle Seiten. Das dauert 20 bis 30 Minuten.

GPT 4.1 findet die Klausel in Abschnitt 23 und extrahiert den Satz präzise: Company grants to Investor a worldwide, royalty free, exclusive, irrevocable license. Der Jaccard Score liegt bei 0,94. Das bedeutet: 94 Prozent der extrahierten Wörter stimmen mit der menschlichen Annotation überein.

Qwen3 8B im Thinking Mode findet die Klausel ebenfalls, gibt aber einen längeren Absatz zurück. Der Jaccard Score liegt bei 0,82. Die Antwort ist korrekt, aber weniger präzise. Ein Anwalt muss mehr Kontext lesen.

Qwen3 4B im Thinking Mode antwortet: No related clause. Obwohl die Lizenzklausel eindeutig im Vertrag steht. Das ist ein False Negative. Ein Anwalt, der diesem Modell vertraut, würde die Klausel übersehen.

Qwen3 8B AWQ ohne Thinking Mode antwortet ebenfalls: No related clause. Das passiert bei fast jedem dritten Vertrag. Für eine Kanzlei bedeutet das: Das Modell kann als Filter dienen, aber keinesfalls als alleinige Prüfinstanz.

4. Die Metriken verstehen

ContractEval verwendet drei Kennzahlen, die zusammen ein vollständiges Bild liefern.

Der F1 Score misst die Korrektheit. Er kombiniert Precision und Recall. Precision sagt: Wie viel Prozent der vorgeschlagenen Klauseln sind richtig? Recall sagt: Wie viel Prozent aller wirklich vorhandenen Klauseln wurden gefunden? Ein F1 Score von 0,641 bedeutet: Das Modell ist in etwa zwei Dritteln der Fälle korrekt. Ein Wert von 0,07 bedeutet: Praktisch nutzlos.

Die Jaccard Similarity misst die Output Effectiveness. Sie vergleicht die vom Modell extrahierten Wörter mit den vom Menschen annotierten Wörtern. Ein Wert von 1,0 bedeutet perfekte Übereinstimmung. Ein Wert von 0,4 bedeutet: Das Modell hat zwar die richtige Klausel gefunden, aber den extrahierten Text mit irrelevantem Kontext aufgebläht.

Die False No Related Clause Rate misst die Faulheit. Sie sagt: Wie oft behauptet das Modell fälschlicherweise, es gebe keine relevante Klausel? Ein Wert von 30 Prozent bedeutet: Drei von zehn Klauseln werden einfach ignoriert. Im Rechtswesen ist das die gefährlichste Fehlerquelle.

5. Was die Forschung kritisch sieht

Limitation 1: Nur 102 Verträge im Testset

Der CUAD Testset enthält zwar 4.128 Frage Antwort Paare, aber nur 102 eindeutige Verträge. Das ist wenig für eine generalisierbare Aussage. Die Verträge stammen aus der EDGAR Datenbank der US Börsenaufsicht. Deutsche Verträge, AGBs, Arbeitsverträge oder Mietverträge sind nicht enthalten. Eine Übertragung auf andere Jurisdiktionen ist nicht validiert.

Limitation 2: Kein Fine Tuning getestet

Alle 19 Modelle wurden im Zero Shot Modus evaluiert. Das bedeutet: Kein Modell wurde speziell auf juristische Verträge trainiert. Die Forscher vermuten, dass Open Source Modelle mit domain spezifischem Fine Tuning deutlich besser werden könnten. Für Kanzleien bedeutet das: Die aktuellen Ergebnisse sind eine Untergrenze, keine Obergrenze.

Limitation 3: Nur englische Verträge

Alle Testverträge sind auf Englisch. Die deutsche Rechtssprache unterscheidet sich strukturell. Deutsche Verträge verwenden andere Klauseltypen, andere Formulierungen und andere typographische Konventionen. Ein Modell, das englische Verträge gut liest, muss das auf Deutsch nicht ebenfalls können.

Limitation 4: Fokus auf Extraktion, nicht auf Bewertung

ContractEval testet nur das Finden von Klauseln. Es bewertet nicht das Risiko einer Klausel, empfiehlt keine Verhandlungsstrategie und ordnet keine Klausel in den Geschäftskontext ein. Das ist die niedrigere Ebene der Vertragsprüfung. Die höhere Ebene, das sogenannte Counseling, bleibt menschlich.

6. Was das für KMUs und Kanzleien bedeutet

Empfehlung 1: Proprietary für kritische Transaktionen

GPT 4.1 und Claude Sonnet 4 bleiben der Goldstandard für Due Diligence, M und A Transaktionen und Großverträge. Die Kosten von circa 50 Dollar für den Test von 4.128 Klauseln sind gegenüber dem Stundensatz eines Senior Partners vernachlässigbar. Das Problem bleibt der Datenschutz. Kanzleien, die proprietary Modelle nutzen, müssen sicherstellen, dass keine Mandantendaten an externe Server gesendet werden. Verträge sollten anonymisiert oder pseudonymisiert werden.

Empfehlung 2: Qwen3 8B als lokale Alternative

Für Kanzleien mit strikten Datenschutzanforderungen ist Qwen3 8B im Thinking Mode die beste Open Source Option. Mit einem F1 Score von 0,540 kommt es auf etwa 84 Prozent der GPT 4.1 Performance. Die Hardwarekosten liegen bei einer einmaligen Investition von 2.000 bis 4.000 Euro für eine GPU. Keine laufenden API Kosten. Keine Datenverarbeitung außerhalb der Kanzlei. Der Nachteil: Eine False Rate von bis zu 25 Prozent bei manchen Varianten. Das Modell sollte als Erstfilter dienen, nicht als Endprüfung.

Empfehlung 3: Thinking Mode bewusst einsetzen

Wenn die Präzision der Extraktion wichtig ist, sollte der Thinking Mode eingeschaltet werden. Die Jaccard Similarity steigt, die Antworten sind knapper. Wenn die Korrektheit wichtiger ist, sollte der Thinking Mode ausgeschaltet werden. Für einfache Klauseltypen wie Vertragsdatum oder Parteien überkompliziert der Thinking Mode die Aufgabe. Eine regelbasierte Logik kann zwischen einfachen und komplexen Klauseltypen unterscheiden und den Modus automatisch umschalten.

Empfehlung 4: Quantisierung nur für Screening

Für einen schnellen Überblick über große Vertragsmengen können quantisierte Modelle eingesetzt werden. AWQ reduziert den GPU Bedarf auf ein Viertel. Die F1 Scores sinken von 0,530 auf 0,475. Das ist akzeptabel für ein erstes Screening. Für kritische Klauseln wie Haftungsbegrenzungen oder Kündigungsrechte sollte immer das unquantisierte Modell verwendet werden. Ein zweistufiger Prozess bietet das beste Verhältnis aus Geschwindigkeit und Korrektheit.

7. Die wichtigsten Modelle im Überblick

ContractEval testet 19 Modelle. Die folgende Tabelle zeigt die relevantesten für den Mittelstand:

Modell	Typ	F1 Score	Jaccard	False Rate
GPT 4.1 mini	Proprietary	0,644	0,435	7,2%
GPT 4.1	Proprietary	0,641	0,472	7,1%
Claude Sonnet 4	Proprietary	0,523	0,458	2,5%
Gemini 2.5 Pro	Proprietary	0,497	0,506	1,1%
Qwen3 8B (thinking)	Open Source	0,540	0,391	11,0%
Qwen3 8B	Open Source	0,530	0,340	24,8%
Qwen3 14B (thinking)	Open Source	0,387	0,421	11,7%
LLaMA 3.1 8B	Open Source	0,392	0,300	21,4%
Gemma 3 12B	Open Source	0,391	0,446	4,5%
DeepSeek R1 Distill 7B	Open Source	0,071	0,131	3,7%

8. Quelle und Kontext

Original Paper: Liu, S., Li, Z., Ma, R., Zhao, H., & Du, M. (2025). ContractEval: Benchmarking Open Source and Proprietary LLMs on Clause Level Contract Review. arXiv preprint arXiv:2508.03080.

arXiv: https://arxiv.org/abs/2508.03080

Code: https://github.com/olivialiu121/ContractEval

Dataset: CUAD Test Set (4.128 Datensätze, 41 Klauseltypen, 102 Verträge)

Zusammenfassung erstellt von: NaveSight Research Team

Haftungsausschluss: Diese Zusammenfassung ist eine redaktionelle Aufbereitung und ersetzt nicht das Original Paper. Für wissenschaftliche Zwecke zitieren Sie bitte die Originalquelle.

Erfahren Sie, wo Ihr Unternehmen in Sachen automatischer Vertragsanalyse steht.

In 30 Minuten bewerten wir gemeinsam Ihren Reifegrad und zeigen Ihnen den nächsten konkreten Schritt. Ohne Verpflichtung.

Kostenlosen Maturity Check starten

Unsere Garantie: ein konkreter Aktionsplan, ob mit NaveSight oder ohne.

Wir führen 10 Maturity Checks pro Monat durch. Priorisierte Bearbeitung: 48 Stunden.