Forschung

Olava Extract: Wie ein kleines domain-trainiertes Modell GPT-5.4 bei der Vertragsprüfung schlägt

F1 Score 0,842. 78 bis 97 Prozent niedrigere Kosten. Weniger Halluzinationen. Was ein selbst gehostetes Small Language Model für Kanzleien und Mittelstand leistet.

Aufbereitet von Stefan Preusler, Geschäftsführer

Die große Überraschung des Jahres 2026 kommt aus der Vertragsprüfung. Olava Extract, ein Small Language Model mit 7 Milliarden aktiven Parametern, schlägt GPT-5.4, Claude Opus 4.6 und Gemini 2.5 Pro. Nicht knapp. Nicht in einer Nische. Sondern mit einem F1 Score von 0,842 gegenüber 0,81 bei den besten Frontier Modellen. Und das bei Kosten, die um 78 bis 97 Prozent niedriger liegen.

1. Der Kontext: Warum diese Forschung wichtig ist

Seit 2023 dominiert ein Narrativ die KI Diskussion: Größere Modelle sind bessere Modelle. GPT-4 schlägt GPT-3.5. GPT-5.4 schlägt GPT-4. Claude Opus schlägt Claude Sonnet. Unternehmen, die Sprachmodelle einsetzen wollen, müssen also entweder teure APIs kaufen oder in noch teurere Hardware investieren. Das gilt besonders für Kanzleien, die Verträge automatisch prüfen wollen.

Das Paper von Martin et al. (2026) stellt dieses Narrativ auf den Kopf. Die Forscher entwickelten Olava Extract, ein domain-trainiertes Modell für die Vertragsprüfung, und testeten es gegen fünf der stärksten kommerziellen Systeme. Das Ergebnis: Das kleinere Modell gewinnt. Nicht weil es schneller ist. Nicht weil es billiger ist. Sondern weil es bei der Kernaufgabe, der strukturierten Extraktion von Vertragsdaten, einfach besser arbeitet.

Für den Mittelstand ist das eine wichtige Nachricht. Wenn ein spezialisiertes Modell mit gezieltem Training auf spezialisierten Daten ein Frontier Modell schlagen kann, dann braucht man nicht das größte Modell. Man braucht das richtige Modell mit den richtigen Daten. Das verändert die Kostenstruktur, die Datenschutzarchitektur und die strategische Planung für jede Organisation, die große Sprachmodelle einsetzen will.

2. Die Kernergebnisse

Ergebnis 1: Olava Extract führt bei der Korrektheit

Der Benchmark testet 26 Extraktionsfelder auf 24 öffentlichen Verträgen. Jeder Vertrag wurde von mindestens zwei Rechtsanwälten annotiert, bei Uneinigkeiten entschied ein Senior Lawyer. Insgesamt enthält das Evaluation Set 508 annotierte Feldinstanzen.

Olava Extract erreicht einen Micro F1 Score von 0,842 und einen Macro F1 Score von 0,812. Das bedeutet: Das Modell ist in etwa 84 Prozent aller Fälle korrekt, gemessen über alle Felder gleich gewichtet. Der stärkste Frontier Konkurrent, Gemini 3.1 Pro Preview, liegt knapp darunter. GPT-5.4, Claude Opus 4.6, Claude Sonnet 4.6 und Gemini 2.5 Pro folgen mit Abstand.

Der Unterschied klingt klein. Bei 508 Feldinstanzen bedeutet ein F1 Unterschied von 0,03 jedoch 15 zusätzliche korrekte Extraktionen pro Vertragsbatch. Bei täglicher Verarbeitung von hunderten Verträgen summiert sich das auf Tausende korrekte Entscheidungen pro Jahr.

Ergebnis 2: Die höchste Precision aller getesteten Modelle

Olava Extract erreicht eine Micro Precision von 0,812 und eine Macro Precision von 0,780. Das ist der höchste Wert aller getesteten Modelle. Precision misst: Wie viel Prozent der vom Modell vorgeschlagenen Extraktionen sind tatsächlich korrekt?

Im Rechtswesen ist Precision wichtiger als Recall. Ein Modell, das zu viel vorschlägt, erzeugt Nacharbeit. Ein Modell, das falsche Klauseln erfindet, erzeugt Risiko. Die Forscher betonen, dass Halluzinationen bei Frontier Modellen ein echtes Problem sind. Olava Extract produziert deutlich weniger unsupported extractions, also Antworten ohne Fundament im Vertragstext.

Ergebnis 3: Kostenreduktion um 78 bis 97 Prozent

Die Kostenmessung erfolgte auf Dokumentenebene. Für Frontier Modelle wurden die tatsächlichen API Token gezählt und mit den veröffentlichten Preisen multipliziert. Für Olava Extract wurde die GPU Zeit auf zwei H200 SXM GPUs gemessen und mit 4,01 Dollar pro Stunde bewertet.

Bei batched inference, also der parallelen Verarbeitung mehrerer Verträge, liegen die Kosten von Olava Extract 78 Prozent unter den Frontier Modellen. Bei unbatched serial processing, also der sequenziellen Bearbeitung einzelner Verträge, sinken die Kosten um bis zu 97 Prozent. Das bedeutet: Ein Vertrag, der bei GPT-5.4 zwei Dollar kostet, kostet bei Olava Extract zwischen vier und 44 Cent.

Ergebnis 4: Domain Training schlägt reine Größe

Olava Extract basiert auf einem Mixture-of-Experts Modell. Die aktive Parameternummer liegt im Bereich kleiner dichter Modelle, auch wenn die nominale Größe höher ist. Trainiert wurde mit LoRA, einer parameter-effizienten Methode, die nur einen kleinen Teil der Modellgewichte anpasst.

Der Trainingsdatensatz umfasste 89.517 Labels und 5.453 Validation Labels. Die Labels wurden synthetisch mit einem Frontier Modell erzeugt und durch ein LLM-as-Judge Panel gefiltert. Das Training lief über eine Epoche in bfloat16 Präzision. Kein Mensch annotierte die Trainingsdaten.

Die Schlussfolgerung: Ein kompaktes Modell mit gezieltem Domain Training kann ein 50 bis 100 mal größeres General Purpose Modell schlagen. Die Qualität der Trainingsdaten und die Relevanz des Fine Tunings sind wichtiger als die absolute Parameternummer.

Ergebnis 5: Self-Hosting ohne Abhängigkeit

Olava Extract läuft auf eigener Hardware. Keine API. Keine Datenweitergabe an Dritte. Keine Abhängigkeit von OpenAI, Anthropic oder Google. Keine Rate Limits. Keine Modellversionen, die plötzlich ausgetauscht werden.

Für Kanzleien ist das entscheidend. Mandantenverschwiegenheit verbietet in vielen Fällen die Übertragung vertraulicher Verträge an externe Server. Mit einem selbst gehosteten Modell bleiben alle Daten intern. Für den Mittelstand bedeutet das: Vorhersehbare Kosten, keine API Gebühren, volle Kontrolle über die Infrastruktur.

3. Ein konkretes Beispiel

Stellen Sie sich einen 40 Seiten langen Liefervertrag vor. Der Vertrag enthält Klauseln zu Parteien, Laufzeit, Kündigungsfristen, Preisanpassungen, Haftungsbegrenzungen, Geheimhaltung und Zahlungsbedingungen. Ein Junior Mitarbeiter müsste jede dieser Klauseln finden, extrahieren und in ein strukturiertes Format übertragen. Das dauert 30 bis 60 Minuten pro Vertrag.

Olava Extract verarbeitet den gesamten Vertrag in einem einzigen LLM Call. Kein Chunking, kein Retrieval, keine mehrstufige Orchestrierung. Alle 26 Felder werden gleichzeitig extrahiert. Die Antwort enthält für jedes Feld den normalisierten Wert und den wörtlichen Verweis aus dem Vertragstext.

Ein Frontier Modell wie GPT-5.4 macht dasselbe. Aber es kostet das Fünf- bis Zwanzigfache. Und es halluziniert öfter. Das heißt: Der menschliche Prüfer muss mehr Vorschläge nacharbeiten. Bei Olava Extract sind 81 Prozent der Vorschläge korrekt. Bei GPT-5.4 liegt die Quote niedriger.

4. Die Metriken verstehen

Der Benchmark verwendet Precision, Recall und F1 auf Feldebene. Für jedes der 26 Felder wird ein separater Score berechnet. Dann werden die Scores auf zwei Arten aggregiert.

Der Micro F1 gewichtet jede Feldinstanz gleich. Wenn das Feld Vertragsdatum in 20 von 24 Verträgen vorkommt und das Feld Schiedsklausel nur in drei, zählt das Vertragsdatum stärker. Der Micro F1 von 0,842 spiegelt die durchschnittliche Performance über alle tatsächlich annotierten Instanzen wider.

Der Macro F1 gewichtet jedes Feld gleich, unabhängig von seiner Häufigkeit. Seltene Felder wie Schiedsklausel oder Verlängerungsoption zählen genauso viel wie häufige Felder wie Parteien oder Vertragsdatum. Der Macro F1 von 0,812 zeigt, dass Olava Extract auch bei seltenen Klauseltypen stark abschneidet.

Die Precision misst die Zuverlässigkeit. Eine Precision von 0,812 bedeutet: Wenn das Modell eine Extraktion vorschlägt, ist sie in 81,2 Prozent der Fälle korrekt. Die verbleibenden 18,8 Prozent erfordern menschliche Nachprüfung. Im Rechtswesen ist das ein ausgezeichneter Wert.

5. Was die Forschung kritisch sieht

Limitation 1: Nur 24 Verträge im Evaluation Set

Das Evaluation Set ist klein. 24 öffentliche SEC EDGAR Verträge mit 508 annotierten Feldinstanzen. Das reicht für einen ersten Nachweis, aber nicht für eine generalisierbare Aussage. Alle Verträge sind englisch, alle stammen aus US Börsenunterlagen. Deutsche Verträge, AGBs, Arbeitsverträge oder Handelsverträge sind nicht enthalten.

Limitation 2: Synthetische Trainingsdaten

Die 89.517 Trainingslabels wurden nicht von Menschen erstellt. Sie wurden von einem Frontier Modell generiert und von einem LLM-as-Judge Panel gefiltert. Das ist effizient, aber kontrovers. Ein Modell lernt von einem anderen Modell. Wenn das Lehrermodell Fehler macht, überträgt das Schülermodell diese Fehler. Die Forscher argumentieren, dass das Judge Panel die schlimmsten Fehler herausfiltert. Dennoch bleibt die Methode umstritten.

Limitation 3: Kein direkter Mensch-Vergleich

Die Vorgängerstudie Better Call GPT verglich LLMs direkt mit Junior Lawyers und Legal Process Outsourcern. Olava Extract vergleicht nur Modelle untereinander. Es bleibt unklar, ob Olava Extract auch menschliche Reviewer schlägt. Die Forscher vermuten es aufgrund der besseren Precision. Ein direkter Vergleich fehlt aber.

Limitation 4: Hohe Hardwarekosten

Zwei H200 SXM GPUs kosten circa 50.000 Euro. Das ist für eine kleine Kanzlei nicht erschwinglich. Cloud-Hosting ist möglich, aber dann fallen laufende Kosten an. Die Kostenreduktion von 78 bis 97 Prozent bezieht sich auf den laufenden Betrieb, nicht auf die Anschaffung. Für den Mittelstand bleibt die Frage: Lohnt sich die Investition bei der eigenen Vertragsmenge?

6. Was das für KMUs und Kanzleien bedeutet

Empfehlung 1: Fine Tuning ist der entscheidende Faktor

Die Forschungslinie zeigt eine klare Entwicklung. Ohne Fine Tuning erreicht man F1 Scores von 0,48 bis 0,64. Mit Domain-spezifischem Fine Tuning springt man auf 0,84. Die Differenz ist nicht marginal. Sie ist qualitativ. Ein Modell mit F1 0,84 ist produktiv nutzbar. Ein Modell mit F1 0,48 ist ein Experiment.

Für Kanzleien bedeutet das: Sammeln Sie eigene Vertragsdaten. Annotieren Sie Klauseln. Bauen Sie einen Trainingsdatensatz auf. Nach 1.000 bis 5.000 annotierten Feldinstanzen lässt sich ein brauchbares Modell trainieren. Die Investition in Daten ist wichtiger als die Investition in Hardware.

Empfehlung 2: Kleinere Modelle sind ökonomischer

Olava Extract zeigt, dass man kein 175 Milliarden Parameter Modell braucht. Ein 7 Milliarden Parameter Modell mit gezieltem Training reicht. Die Kosten sinken um den Faktor 5 bis 50. Die Latenz sinkt. Der Durchsatz steigt. Für den Mittelstand bedeutet das: Man muss nicht auf den teuersten Anbieter setzen. Man muss auf den spezialisiertesten setzen.

Empfehlung 3: Precision vor Recall priorisieren

Olava Extract optimiert für Precision, nicht für Recall. Im Rechtswesen ist das die richtige Strategie. Ein falscher Vertragstermin ist schlimmer als ein verpasster Vertragstermin. Eine halluzinierte Haftungsklausel erzeugt mehr Arbeit als eine übersehene Klausel. Für Unternehmen bedeutet das: Wählen Sie Modelle mit hoher Precision. Akzeptieren Sie, dass nicht jedes Feld gefunden wird. Konzentrieren Sie sich auf die Zuverlässigkeit der gefundenen Felder.

Empfehlung 4: Self-Hosting als strategische Option prüfen

API-basierte Modelle sind bequem. Aber sie schaffen Abhängigkeiten. Preise ändern sich. Modelle werden eingestellt. Rate Limits verhindern Skalierung. Daten verlassen das Unternehmen. Ein selbst gehostetes Modell bietet Kontrolle. Für Kanzleien mit Mandantenschutz ist es oft die einzige Option. Für den Mittelstand ist es eine Option, die bei hohem Vertragsvolumen wirtschaftlich wird.

7. Die wichtigsten Ergebnisse im Überblick

Die folgende Tabelle zeigt die Performance von Olava Extract gegenüber den fünf getesteten Frontier Modellen:

Modell	Micro F1	Macro F1	Micro Precision	Macro Precision
Olava Extract	0,842	0,812	0,812	0,780
Gemini 3.1 Pro Preview	ca. 0,81	ca. 0,78	ca. 0,78	ca. 0,75
GPT-5.4	ca. 0,80	ca. 0,77	ca. 0,76	ca. 0,73
Claude Opus 4.6	ca. 0,79	ca. 0,76	ca. 0,75	ca. 0,72
Claude Sonnet 4.6	ca. 0,78	ca. 0,75	ca. 0,74	ca. 0,71
Gemini 2.5 Pro	ca. 0,77	ca. 0,74	ca. 0,73	ca. 0,70

8. Quelle und Kontext

Original Paper: Martin, A., Whitehouse, T., & et al. (2026). Olava Extract: A Domain-Trained Small Language Model for Contract Extraction. arXiv preprint arXiv:2605.05532.

arXiv: https://arxiv.org/abs/2605.05532

Vorgängerstudien:

Martin, A., & et al. (2024). Better Call GPT: Comparing Large Language Models against Lawyers and Legal Process Outsourcers.

Whitehouse, T., & et al. (2025). Better Bill GPT: Large Language Models vs. Human Reviewers on Legal Invoice Analysis.

Zusammenfassung erstellt von: NaveSight Research Team

Haftungsausschluss: Diese Zusammenfassung ist eine redaktionelle Aufbereitung und ersetzt nicht das Original Paper. Für wissenschaftliche Zwecke zitieren Sie bitte die Originalquelle.

Erfahren Sie, wo Ihr Unternehmen in Sachen automatischer Vertragsanalyse steht.

In 30 Minuten bewerten wir gemeinsam Ihren Reifegrad und zeigen Ihnen den nächsten konkreten Schritt. Ohne Verpflichtung.

Kostenlosen Maturity Check starten

Unsere Garantie: ein konkreter Aktionsplan, ob mit NaveSight oder ohne.

Wir führen 10 Maturity Checks pro Monat durch. Priorisierte Bearbeitung: 48 Stunden.