Geschäftsführer CFO / Controller Vertriebsleiter Operations IT / Digital
Sales & Pipeline Finance, Buchhaltung & Cashflow Kunden & Churn Operations, Einkauf & Supply HR & People Projekte & Delivery Backoffice, IT & Compliance
Technologie So arbeiten wir Preise Kontakt Kostenloser Maturity Check →
Glossar

RAG - Retrieval-Augmented Generation

Definition, Funktionsweise und Bedeutung im Mittelstand.

Retrieval-Augmented Generation (RAG) ist eine Methode, bei der ein Sprachmodell vor der Antwort gezielt Informationen aus eigenen Dokumenten abruft. So entstehen aktuelle, quellengestützte Antworten statt allgemeiner Vermutungen.

Was bedeutet RAG im Kontext?

Ein Sprachmodell ohne RAG antwortet auf Basis seiner Trainingsdaten. Diese Daten haben ein Stichtag. Preise ändern sich, Verträge werden aktualisiert, Produkte werden eingestellt. Das Modell weiß davon nichts. Es erfindet dann manchmal Antworten, die plausibel klingen, aber falsch sind. Das nennt man Halluzination.

RAG schließt diese Lücke. Das System durchsucht vor der Antwort die eigenen Dokumente. Es findet die passenden Passagen und übergibt sie dem Sprachmodell als Kontext. Das Modell formuliert dann eine Antwort, die auf diesen konkreten Quellen basiert. Der Unterschied ist fundamental: Statt aus dem Gedächtnis zu antworten, liest das System erst die Akte.

Typische Anwendungen im Mittelstand sind Kunden-Chatbots, die aus Handbüchern und Preislisten antworten, interne Suchsysteme für Verträge und Richtlinien sowie Assistenzsysteme für Einkauf oder Vertrieb, die auf Lieferantendaten zugreifen.

Wie funktioniert RAG?

Der Prozess lässt sich in vier Schritte unterteilen, die im Hintergrund ablaufen:

Indexierung: Die vorhandenen Dokumente werden in kleinere Abschnitte aufgeteilt und in einer speziellen Datenbank gespeichert. Diese Datenbank sucht nicht nach exakten Wörtern, sondern nach inhaltlicher Ähnlichkeit.

Abruf: Wenn ein Nutzer eine Frage stellt, wird diese Frage in das gleiche Format wie die Dokumente umgewandelt. Das System findet die Abschnitte, die inhaltlich am besten passen.

Augmentierung: Die gefundenen Abschnitte werden mit der ursprünglichen Frage zu einem gemeinsamen Prompt kombiniert. Das Sprachmodell erhält also die Frage plus die relevanten Quellenstellen.

Generierung: Das Sprachmodell formuliert eine Antwort, die ausschließlich auf den übergebenen Quellen basiert. Es kann dabei Zitate oder Quellenangaben einfügen, die dem Nutzer die Nachvollziehbarkeit ermöglichen.

RAG im Vergleich zu Alternativen

Unternehmen stehen bei der Wahl einer KI-Lösung vor drei grundsätzlichen Optionen. RAG ist nur eine davon. Die Entscheidung hängt von Budget, Datenlage und Anforderung ab.

Kriterium RAG Fine-Tuning Regelbasierter Bot
Daten aktuell Sofort nach Index-Update Nur nach Retraining Manuell gepflegt
Halluzinationen Niedrig Mittel Keine
Setup-Kosten 15.000 - 40.000 Euro 50.000 - 200.000 Euro 5.000 - 15.000 Euro
Laufende Kosten/Monat 500 - 2.000 Euro 2.000 - 10.000 Euro 200 - 800 Euro
Zeit bis produktiv 2 - 4 Wochen 3 - 6 Monate 1 - 2 Wochen
Best geeignet für Wissens-Chatbots, Dokumentensuche Spezialisierte Domänenmodelle Einfache FAQs mit festen Antworten

Wenn nur zehn feste Fragen mit festen Antworten existieren, reicht ein regelbasierter Bot. Sobald jedoch Produktdaten, Preise oder Vertragsbedingungen eine Rolle spielen und sich regelmäßig ändern, wird RAG zur besseren Wahl. Fine-Tuning ist nur sinnvoll, wenn ein hochspezialisiertes Modell für eine eigene Domäne trainiert werden soll. Das ist für die meisten Mittelständler wirtschaftlich nicht vertretbar.

Die vier Komponenten einer RAG-Architektur

Eine RAG-Lösung besteht aus vier Bausteinen, die zusammenarbeiten. Jeder Baustein hat eigene Anforderungen und Kostenimplikationen.

Komponente Aufgabe Mittelstand-Relevanz
Dokumenten-Quelle PDFs, Handbücher, Verträge, FAQs, alte E-Mails Hoch. Jedes Unternehmen hat diese Dokumente bereits.
Embedding-Modell Verwandelt Text in Suchmuster, die die Datenbank versteht Mittel. Läuft meist im Hintergrund, wird vom Anbieter gestellt.
Vektordatenbank Speichert und durchsucht die Textmuster inhaltlich statt wortwörtlich Hoch. Beeinflusst Geschwindigkeit, Kosten und Datenschutz maßgeblich.
Sprachmodell Formuliert die Antwort auf Basis der abgerufenen Quellen Hoch. Die Antwortqualität hängt direkt vom gewählten Modell ab.

Die Wahl der Vektordatenbank und des Sprachmodells hat den größten Einfluss auf Kosten und Datenschutz. Eine selbst gehostete Open-Source-Lösung in der eigenen Infrastruktur ist datenschutztechnisch am sichersten, erfordert aber technisches Know-how. Ein Cloud-Dienst reduziert den Betriebsaufwand, bringt aber Abhängigkeiten und möglicherweise grenzüberschreitende Datenverarbeitung mit sich.

Praxis-Checkliste: Brauchen Sie RAG?

Die folgenden fünf Fragen helfen bei der ersten Einschätzung, ob RAG für Ihr Unternehmen die richtige Technologie ist.

1. Haben Sie mehr als 50 Dokumente, die Mitarbeiter oder Kunden regelmäßig brauchen?

2. Ändern sich Preise, Verträge oder Produktdaten mindestens viermal im Jahr?

3. Gibt es bereits einen Chatbot oder eine Suche, die häufig falsche oder veraltete Antworten liefert?

4. Dürfen Kunden- oder Mandantendaten auf keinen Fall in öffentliche Sprachmodelle fließen?

5. Ist das Budget für einen KI-Einstieg über 15.000 Euro?

Ergebnis: Bei fünfmal Ja ist RAG ideal. Bei drei bis viermal Ja ist RAG möglich, sollte aber gezielt eingeführt werden. Bei null bis zweimal Ja reicht ein regelbasierter Bot oder ein einfaches Sprachmodell ohne RAG.

Häufige Fehler und Lösungen

RAG-Systeme scheitern im Mittelstand selten an der Technik, sondern an falschen Erwartungen und schlechter Dokumentenvorbereitung.

Fehler Symptom Lösung
Antworten korrekt, aber unvollständig Der Bot nennt nur allgemeine Informationen und übersieht Details. Die Dokumentenabschnitte sind zu groß. Chunk-Größe auf 500 bis 1000 Zeichen reduzieren.
RAG liefert Quellen, aber falsche Antworten Der Bot zitiert richtig, interpretiert aber die Quelle falsch. Ein branchenspezifisches Embedding-Modell wählen statt eines generischen.
Langsame Antwortzeiten Nutzer warten fünf Sekunden oder länger auf eine Antwort. Dedizierte Infrastruktur statt Shared-Hosting. Caching für häufige Fragen einrichten.
Daten sind veraltet Der Bot nennt alte Preise oder nicht mehr gültige Vertragsklauseln. Automatischen Re-Index einrichten, zum Beispiel täglich oder bei jeder Dokumentenänderung.
DSGVO-Verstoß Interne Daten werden an einen US-Anbieter übermittelt. EU-gehostetes oder lokal betriebenes Sprachmodell wählen. Auftragsverarbeitungsvertrag prüfen.

DSGVO und Datenschutz bei RAG

Die Datenschutzkonferenz der unabhängigen Datenschutzbehörden hat im Oktober 2025 eine Orientierungshilfe zu RAG-Systemen veröffentlicht. Darin wird deutlich: RAG beseitigt nicht automatisch die datenschutzrechtlichen Probleme, die mit großen Sprachmodellen verbunden sind.

Entscheidend ist, wo die Dokumente und die Vektordatenbank liegen. Bei einer On-Premise-Lösung bleiben alle Daten im eigenen Haus. Bei einem EU-Cloud-Anbieter gelten die DSGVO-Standards der Europäischen Union. Bei einem US-Anbieter wie OpenAI oder Anthropic müssen zusätzliche Verträge und technische Schutzmaßnahmen geprüft werden.

RAG ermöglicht zudem den Einsatz kleinerer, lokal betriebener Sprachmodelle. Das ist datenschutzrechtlich vorteilhaft, da keine personenbezogenen Daten an Dritte übermittelt werden müssen. Die DSK betont jedoch, dass Transparenz, Zweckbindung und die Wahrung von Betroffenenrechten in jedem Fall gewährleistet sein müssen.

Ein Anbieter, der behauptet, RAG sei automatisch DSGVO-konform, vereinfacht zu stark. Die Konformität hängt von der konkreten Architektur, dem Hosting-Standort und den Verarbeitungsvereinbarungen ab.

Verwandte Begriffe

  • LLM - Das Sprachmodell, das die Antwort formuliert
  • Wissensbasis - Die Dokumentensammlung, aus der RAG abruft
  • Chatbot - Die häufigste Anwendung von RAG im Mittelstand

Verwandte Inhalte

Kostenloser Maturity Check

Erleben Sie die Intelligenz-Schicht von NaveSight in Aktion.

30 Minuten - wir zeigen Ihnen, wie NaveSight mit Ihren spezifischen Systemen zusammenarbeitet.

Kostenlosen Maturity Check starten

Unsere Garantie: ein konkreter Aktionsplan - ob mit NaveSight oder ohne.

Wir führen 10 Maturity Checks pro Monat durch. Priorisierte Bearbeitung: 48 Stunden.