Was ist der Unterschied zwischen RAG und einem normalen LLM?

Ein normales LLM antwortet auf Basis seiner Trainingsdaten. Das Wissen ist statisch und kann veraltet sein. RAG ergänzt das LLM durch einen gezielten Abruf aus aktuellen Dokumenten. Die Antwort basiert dann auf eigenen, quellengestützten Informationen statt auf allgemeinem Wissen.

Wie viel kostet RAG im Mittelstand?

Die initialen Kosten für ein RAG-System liegen bei 15.000 bis 40.000 Euro. Die laufenden Kosten betragen 500 bis 2.000 Euro pro Monat für API-Nutzung, Hosting und Wartung der Vektordatenbank. Ein regelbasierter Bot ist mit 5.000 bis 15.000 Euro deutlich günstiger, kann aber keine dynamischen Inhalte verarbeiten.

Ist RAG DSGVO-konform?

RAG selbst garantiert keine DSGVO-Konformität. Entscheidend ist, wo die Dokumente gespeichert werden, wer Zugriff hat und welches Sprachmodell die Antwort generiert. Bei EU-gehosteten oder lokal betriebenen Modellen bleiben die Daten im eigenen Verantwortungsbereich. Bei US-Anbietern wie OpenAI oder Anthropic gelten andere Datenschutzstandards.

Kann RAG auch ohne Programmierung genutzt werden?

Ja, es gibt Low-Code- und No-Code-Plattformen, die RAG-Funktionen anbieten. Für den produktiven Einsatz im Mittelstand ist jedoch technisches Grundverständnis hilfreich, um die Qualität der Antworten zu steuern und die Vektordatenbank zu pflegen.

Glossar

RAG - Retrieval-Augmented Generation

Q: Brauche ich RAG für meinen Chatbot?

RAG ist sinnvoll, wenn Ihr Chatbot aktuelle Informationen liefern soll, die sich regelmäßig ändern. Wenn nur zehn feste Fragen mit festen Antworten existieren, reicht ein regelbasierter Bot. Sobald Produktdaten, Preise oder Vertragsbedingungen eine Rolle spielen, wird RAG zur besseren Wahl.

Definition, Funktionsweise und Bedeutung im Mittelstand.

Retrieval-Augmented Generation (RAG) ist eine Methode, bei der ein Sprachmodell vor der Antwort gezielt Informationen aus eigenen Dokumenten abruft. So entstehen aktuelle, quellengestützte Antworten statt allgemeiner Vermutungen.

Was bedeutet RAG im Kontext?

Ein Sprachmodell ohne RAG antwortet auf Basis seiner Trainingsdaten. Diese Daten haben ein Stichtag. Preise ändern sich, Verträge werden aktualisiert, Produkte werden eingestellt. Das Modell weiß davon nichts. Es erfindet dann manchmal Antworten, die plausibel klingen, aber falsch sind. Das nennt man Halluzination.

RAG schließt diese Lücke. Das System durchsucht vor der Antwort die eigenen Dokumente. Es findet die passenden Passagen und übergibt sie dem Sprachmodell als Kontext. Das Modell formuliert dann eine Antwort, die auf diesen konkreten Quellen basiert. Der Unterschied ist fundamental: Statt aus dem Gedächtnis zu antworten, liest das System erst die Akte.

Typische Anwendungen im Mittelstand sind Kunden-Chatbots, die aus Handbüchern und Preislisten antworten, interne Suchsysteme für Verträge und Richtlinien sowie Assistenzsysteme für Einkauf oder Vertrieb, die auf Lieferantendaten zugreifen.

Wie funktioniert RAG?

Der Prozess lässt sich in vier Schritte unterteilen, die im Hintergrund ablaufen:

Indexierung: Die vorhandenen Dokumente werden in kleinere Abschnitte aufgeteilt und in einer speziellen Datenbank gespeichert. Diese Datenbank sucht nicht nach exakten Wörtern, sondern nach inhaltlicher Ähnlichkeit.

Abruf: Wenn ein Nutzer eine Frage stellt, wird diese Frage in das gleiche Format wie die Dokumente umgewandelt. Das System findet die Abschnitte, die inhaltlich am besten passen.

Augmentierung: Die gefundenen Abschnitte werden mit der ursprünglichen Frage zu einem gemeinsamen Prompt kombiniert. Das Sprachmodell erhält also die Frage plus die relevanten Quellenstellen.

Generierung: Das Sprachmodell formuliert eine Antwort, die ausschließlich auf den übergebenen Quellen basiert. Es kann dabei Zitate oder Quellenangaben einfügen, die dem Nutzer die Nachvollziehbarkeit ermöglichen.

RAG im Vergleich zu Alternativen

Unternehmen stehen bei der Wahl einer KI-Lösung vor drei grundsätzlichen Optionen. RAG ist nur eine davon. Die Entscheidung hängt von Budget, Datenlage und Anforderung ab.

Kriterium	RAG	Fine-Tuning	Regelbasierter Bot
Daten aktuell	Sofort nach Index-Update	Nur nach Retraining	Manuell gepflegt
Halluzinationen	Niedrig	Mittel	Keine
Setup-Kosten	15.000 - 40.000 Euro	50.000 - 200.000 Euro	5.000 - 15.000 Euro
Laufende Kosten/Monat	500 - 2.000 Euro	2.000 - 10.000 Euro	200 - 800 Euro
Zeit bis produktiv	2 - 4 Wochen	3 - 6 Monate	1 - 2 Wochen
Best geeignet für	Wissens-Chatbots, Dokumentensuche	Spezialisierte Domänenmodelle	Einfache FAQs mit festen Antworten

Wenn nur zehn feste Fragen mit festen Antworten existieren, reicht ein regelbasierter Bot. Sobald jedoch Produktdaten, Preise oder Vertragsbedingungen eine Rolle spielen und sich regelmäßig ändern, wird RAG zur besseren Wahl. Fine-Tuning ist nur sinnvoll, wenn ein hochspezialisiertes Modell für eine eigene Domäne trainiert werden soll. Das ist für die meisten Mittelständler wirtschaftlich nicht vertretbar.

Die vier Komponenten einer RAG-Architektur

Eine RAG-Lösung besteht aus vier Bausteinen, die zusammenarbeiten. Jeder Baustein hat eigene Anforderungen und Kostenimplikationen.

Komponente	Aufgabe	Mittelstand-Relevanz
Dokumenten-Quelle	PDFs, Handbücher, Verträge, FAQs, alte E-Mails	Hoch. Jedes Unternehmen hat diese Dokumente bereits.
Embedding-Modell	Verwandelt Text in Suchmuster, die die Datenbank versteht	Mittel. Läuft meist im Hintergrund, wird vom Anbieter gestellt.
Vektordatenbank	Speichert und durchsucht die Textmuster inhaltlich statt wortwörtlich	Hoch. Beeinflusst Geschwindigkeit, Kosten und Datenschutz maßgeblich.
Sprachmodell	Formuliert die Antwort auf Basis der abgerufenen Quellen	Hoch. Die Antwortqualität hängt direkt vom gewählten Modell ab.

Die Wahl der Vektordatenbank und des Sprachmodells hat den größten Einfluss auf Kosten und Datenschutz. Eine selbst gehostete Open-Source-Lösung in der eigenen Infrastruktur ist datenschutztechnisch am sichersten, erfordert aber technisches Know-how. Ein Cloud-Dienst reduziert den Betriebsaufwand, bringt aber Abhängigkeiten und möglicherweise grenzüberschreitende Datenverarbeitung mit sich.

Praxis-Checkliste: Brauchen Sie RAG?

Die folgenden fünf Fragen helfen bei der ersten Einschätzung, ob RAG für Ihr Unternehmen die richtige Technologie ist.

1. Haben Sie mehr als 50 Dokumente, die Mitarbeiter oder Kunden regelmäßig brauchen?

2. Ändern sich Preise, Verträge oder Produktdaten mindestens viermal im Jahr?

3. Gibt es bereits einen Chatbot oder eine Suche, die häufig falsche oder veraltete Antworten liefert?

4. Dürfen Kunden- oder Mandantendaten auf keinen Fall in öffentliche Sprachmodelle fließen?

5. Ist das Budget für einen KI-Einstieg über 15.000 Euro?

Ergebnis: Bei fünfmal Ja ist RAG ideal. Bei drei bis viermal Ja ist RAG möglich, sollte aber gezielt eingeführt werden. Bei null bis zweimal Ja reicht ein regelbasierter Bot oder ein einfaches Sprachmodell ohne RAG.

Häufige Fehler und Lösungen

RAG-Systeme scheitern im Mittelstand selten an der Technik, sondern an falschen Erwartungen und schlechter Dokumentenvorbereitung.

Fehler	Symptom	Lösung
Antworten korrekt, aber unvollständig	Der Bot nennt nur allgemeine Informationen und übersieht Details.	Die Dokumentenabschnitte sind zu groß. Chunk-Größe auf 500 bis 1000 Zeichen reduzieren.
RAG liefert Quellen, aber falsche Antworten	Der Bot zitiert richtig, interpretiert aber die Quelle falsch.	Ein branchenspezifisches Embedding-Modell wählen statt eines generischen.
Langsame Antwortzeiten	Nutzer warten fünf Sekunden oder länger auf eine Antwort.	Dedizierte Infrastruktur statt Shared-Hosting. Caching für häufige Fragen einrichten.
Daten sind veraltet	Der Bot nennt alte Preise oder nicht mehr gültige Vertragsklauseln.	Automatischen Re-Index einrichten, zum Beispiel täglich oder bei jeder Dokumentenänderung.
DSGVO-Verstoß	Interne Daten werden an einen US-Anbieter übermittelt.	EU-gehostetes oder lokal betriebenes Sprachmodell wählen. Auftragsverarbeitungsvertrag prüfen.

DSGVO und Datenschutz bei RAG

Die Datenschutzkonferenz der unabhängigen Datenschutzbehörden hat im Oktober 2025 eine Orientierungshilfe zu RAG-Systemen veröffentlicht. Darin wird deutlich: RAG beseitigt nicht automatisch die datenschutzrechtlichen Probleme, die mit großen Sprachmodellen verbunden sind.

Entscheidend ist, wo die Dokumente und die Vektordatenbank liegen. Bei einer On-Premise-Lösung bleiben alle Daten im eigenen Haus. Bei einem EU-Cloud-Anbieter gelten die DSGVO-Standards der Europäischen Union. Bei einem US-Anbieter wie OpenAI oder Anthropic müssen zusätzliche Verträge und technische Schutzmaßnahmen geprüft werden.

RAG ermöglicht zudem den Einsatz kleinerer, lokal betriebener Sprachmodelle. Das ist datenschutzrechtlich vorteilhaft, da keine personenbezogenen Daten an Dritte übermittelt werden müssen. Die DSK betont jedoch, dass Transparenz, Zweckbindung und die Wahrung von Betroffenenrechten in jedem Fall gewährleistet sein müssen.

Ein Anbieter, der behauptet, RAG sei automatisch DSGVO-konform, vereinfacht zu stark. Die Konformität hängt von der konkreten Architektur, dem Hosting-Standort und den Verarbeitungsvereinbarungen ab.

Erleben Sie die Intelligenz-Schicht von NaveSight in Aktion.

30 Minuten - wir zeigen Ihnen, wie NaveSight mit Ihren spezifischen Systemen zusammenarbeitet.

Kostenlosen Maturity Check starten

Unsere Garantie: ein konkreter Aktionsplan - ob mit NaveSight oder ohne.

Wir führen 10 Maturity Checks pro Monat durch. Priorisierte Bearbeitung: 48 Stunden.