Glossar

LLM

Large Language Model: Definition, Funktionsweise, Kosten und praktischer Einsatz im Mittelstand.

LLM steht für Large Language Model, ein KI-System, das natürliche Sprache versteht, verarbeitet und generiert. Es wird trainiert, indem es Milliarden von Texten analysiert und daraus Muster ableitet, wie Wörter und Sätze zusammenhängen. Ein LLM berechnet für jede Eingabe die wahrscheinlichste Fortsetzung und erzeugt so Text, der menschlich geschrieben wirken kann.

Was ist ein LLM genau?

Ein Large Language Model ist ein künstliches neuronales Netzwerk, das auf der Transformer-Architektur basiert. Diese Architektur wurde 2017 von Google-Forschern vorgestellt und hat die Art, wie KI Sprache verarbeitet, grundlegend verändert. Im Gegensatz zu früheren sequenziellen Ansätzen verarbeiten Transformer ganze Textsequenzen parallel und erkennen so Beziehungen zwischen Wörtern, die im Text weit voneinander entfernt liegen.

Das zentrale Prinzip ist verblüffend einfach: Das Modell lernt, das nächste Wort in einer Sequenz vorherzusagen. Durch die Wiederholung dieses Vorgangs auf riesigen Textmengen entwickelt es ein tiefes Verständnis für Grammatik, Fakten, Argumentationsstrukturen und Schreibstile. Die Leistungsfähigkeit steigt mit der Anzahl der Parameter, also den internen Stellschrauben des neuronalen Netzes. Große Modelle wie GPT-4 oder Claude besitzen geschätzte Hunderte von Milliarden Parametern.

Die bekanntesten Vertreter sind ChatGPT von OpenAI, Claude von Anthropic, Gemini von Google und die Llama-Modelle von Meta. Hinzu kommen europäische Entwicklungen wie Mistral aus Frankreich und Aleph Alpha aus Deutschland, die den Fokus auf Effizienz und Datensouveränität legen.

Wie funktioniert ein LLM?

Die Funktionsweise lässt sich in vier Bausteine unterteilen, die für das Verständnis im Unternehmenskontext relevant sind.

Tokenisierung. Ein LLM verarbeitet keinen Rohtext Wort für Wort. Ein sogenannter Tokenizer zerlegt die Eingabe in kleinere Einheiten, sogenannte Token. Ein Token kann ein ganzes Wort, ein Wortfragment oder ein einzelnes Zeichen sein. Der Satz "Automatisierung ist hilfreich" wird beispielsweise in die Token "Auto", "matisier", "ung", " ist", " hilfreich" zerlegt. Jeder Token erhält eine numerische ID, und das Modell arbeitet ausschließlich mit diesen Zahlen. Das hat praktische Konsequenzen: Die Kosten für API-Nutzung werden pro Token berechnet, und die maximal verarbeitbare Textmenge wird in Token gemessen, nicht in Wörtern oder Zeichen.

Transformer-Architektur. Das Herzstück ist der Attention-Mechanismus, der es dem Modell ermöglicht, jedes Wort im Kontext aller anderen Wörter zu betrachten. Stellen Sie sich vor, Sie lesen den Satz "Der Kunde beschwerte sich, weil er die Lieferung nicht erhalten hatte." Ein Mensch versteht intuitiv, dass sich "er" auf "der Kunde" bezieht. Der Attention-Mechanismus berechnet diese Verbindung mathematisch und gewichtet die Beziehung zwischen den entsprechenden Token.

Trainingsphasen. Moderne LLMs durchlaufen typischerweise drei Phasen. Im Pre-Training lernt das Modell auf riesigen Textmengen aus dem Internet, Büchern und Code die grundlegenden Sprachmuster. Im Supervised Fine-Tuning wird es auf kuratierten Dialogen trainiert, um hilfreich und anweisungskonform zu antworten. Im Reinforcement Learning from Human Feedback (RLHF) bewerten Menschen verschiedene Modellantworten, und das Modell lernt, die bevorzugten Ausgaben zu reproduzieren. Diese letzte Phase ist entscheidend für die Qualität und Sicherheit der Antworten.

Inferenz. Wenn Sie eine Anfrage stellen, wandelt das Modell Ihre Eingabe in Token um, berechnet für jedes mögliche nächste Token eine Wahrscheinlichkeit und wählt das wahrscheinlichste aus. Dieser Vorgang wiederholt sich, bis die Antwort vollständig ist. Das Modell "weiß" die Antwort nicht im Voraus, sondern generiert sie Schritt für Schritt aus den statistischen Mustern, die es während des Trainings gelernt hat.

Was ist der Unterschied zwischen LLM, SLM und klassischer Software?

Der entscheidende Unterschied zu klassischer Software liegt in der Flexibilität. Traditionelle Programme arbeiten mit festen Regeln: Wenn X eintritt, dann führe Y aus. Ein LLM arbeitet mit Wahrscheinlichkeiten: Gegeben Kontext Z, was ist die wahrscheinlichste und sinnvollste Fortsetzung? Das macht LLMs mächtig für Aufgaben mit unstrukturierten Daten, gleichzeitig unvorhersehbar, wenn der Kontext unklar ist oder das Modell über seinen Wissensstand hinaus spekuliert.

Kriterium	Klassische Software	LLM (Cloud)	LLM (On-Premise)	SLM
Funktionsweise	Feste Regeln	Wahrscheinlichkeitsmodell	Wahrscheinlichkeitsmodell	Wahrscheinlichkeitsmodell, reduziert
Einstiegskosten	Lizenzgebühren	Ab 200 Euro/Monat	Ab 5.000 Euro Hardware	Ab 2.000 Euro Hardware
Datensouveränität	Hoch	Niedrig (USA-Server)	Hoch (eigene Server)	Hoch (eigene Server)
Anpassungsaufwand	Programmierung nötig	Gering (Prompt-Engineering)	Mittel (Fine-Tuning)	Gering bis mittel
Typische Use-Cases	Buchhaltung, ERP	Textgenerierung, Übersetzung	Vertragsanalyse, interne Q&A	E-Mail-Klassifizierung, Extraktion
Beste geeignet für	Strukturierte Prozesse	Standardaufgaben	Sensible Daten	Einzelne, klare Aufgaben

Quelle: Eigene Erfahrungen aus KMU-Projekten bei NaveSight, ergänzt durch McKinsey Global Institute 2023 und Gartner Hype Cycle for Artificial Intelligence 2024.

Welche Bedeutung haben LLMs für den Mittelstand?

Im Mittelstand ist der Begriff LLM in den vergangenen zwei Jahren allgegenwärtig geworden. Was als Chatbot für Konsumenten begann, ist längst in den B2B-Bereich vorgedrungen. Laut einer Analyse des McKinsey Global Institutes von 2023 könnte generative KI den globalen Produktivitätszuwachs um 0,3 bis 0,6 Prozentpunkte pro Jahr steigern. Für den Mittelstand bedeutet das konkret: Aufgaben, die bisher manuell erledigt wurden, lassen sich nun teilweise oder vollständig automatisieren.

Für den Mittelstand ergeben sich drei zentrale Anwendungsfelder. Das erste ist die Dokumentenanalyse. Ein LLM liest Lieferverträge, erkennt kritische Klauseln und markiert Abweichungen zum eigenen Standard. Das zweite ist die Kommunikation. Es entwirft Kundenanschreiben, formuliert interne Briefings oder übersetzt Fachtexte. Das dritte ist die Entscheidungsunterstützung. Es erklärt komplexe Daten in verständlicher Sprache und schlägt Handlungsoptionen vor.

Bei NaveSight sitzt das LLM als oberste Schicht auf der Intelligenz-Schicht. Unterhalb arbeiten die Rules Engine und die Muster-Erkennung. Das LLM kommt erst dann zum Einsatz, wenn die unteren Schichten ein Signal identifiziert haben. Es übersetzt das Signal in eine verständliche Empfehlung: Wer handelt, wann, mit welchem Impact und in welchem Tonfall. Das verhindert, dass das Modell frei spekuliert. Es arbeitet immer auf Basis konkreter, validierter Daten.

Was ist ein Small Language Model und wann ist es sinnvoll?

Neben den großen Allzweckmodellen gewinnen Small Language Models (SLMs) an Bedeutung. Ein SLM ist eine kompakte Variante mit deutlich weniger Parametern, die auf spezifische Aufgaben trainiert wird. Während ein LLM wie GPT-4 Hunderte von Milliarden Parameter besitzt, kommt ein SLM mit wenigen Milliarden oder sogar nur Millionen aus.

Das hat mehrere Vorteile für den Mittelstand. Erstens sinken die Hardware-Anforderungen drastisch. Ein SLM läuft auf einem handelsüblichen Server oder einer leistungsstarken Workstation. Zweitens reduzieren sich die Betriebskosten. Drittens ist die Ausgabe oft präziser, weil das Modell auf eine konkrete Domäne spezialisiert ist und nicht durch irrelevantes Allgemeinwissen abgelenkt wird.

Der Nachteil ist die geringere Flexibilität. Ein SLM, das auf Vertragsanalyse trainiert wurde, kann keine marketingorientierten Texte generieren. Für Unternehmen, die mehrere Anwendungsfälle abdecken wollen, ist deshalb oft eine Kombination aus SLM und LLM die beste Lösung. Die Middleware entscheidet, welches Modell für welche Anfrage zuständig ist.

Warum ist Datensouveränität wichtig?

Die meisten bekannten LLMs laufen in der Cloud. Unternehmen senden ihre Daten an Server in den USA oder anderen Ländern. Für den Mittelstand, der mit Kundenverträgen, Personalakten und Finanzdaten arbeitet, ist das ein Risiko. Der EU AI Act, die DSGVO und branchenspezifische Vorgaben schränken ein, welche Daten wo verarbeitet werden dürfen. Die italienische Datenschutzbehörde sperrte Anfang 2023 vorübergehend den Zugang zu ChatGPT, weil personenbezogene Daten ohne rechtskonforme Grundlage verarbeitet wurden.

Deshalb gewinnen Open-Source-LLMs an Bedeutung. Modelle wie Llama, Mistral oder Falcon können auf eigenen Servern in Deutschland betrieben werden. Die Daten verlassen das Unternehmen nicht. Die Kosten für Hardware sind gesunken. Ein Einsteigersystem für ein SLM kostet unter 5.000 Euro. Das macht LLMs für KMUs zugänglich, die bisher auf Cloud-Anbieter angewiesen waren.

Die NaveSight-Architektur unterstützt beide Varianten. Cloudbasierte Modelle für Standardaufgaben. Lokale Open-Source-Modelle für sensible Prozesse. Eine Middleware entscheidet pro Anfrage, welches Modell zum Einsatz kommt. Die Wissensbasis bleibt dabei immer unter Kontrolle des Unternehmens.

Wie werden LLMs im Unternehmen eingesetzt?

Der reine Einsatz eines LLMs über eine Weboberfläche ist für den Mittelstand nicht ausreichend. Die echte Wertschöpfung entsteht durch die Integration in bestehende Prozesse und Systeme. Die zentrale Technik dafür ist Retrieval-Augmented Generation, kurz RAG.

Retrieval-Augmented Generation (RAG). Statt das LLM allein auf sein Trainingswissen zu verlassen, wird es mit einer externen Wissensbasis verbunden. Wenn eine Anfrage eingeht, durchsucht das System zunächst die Wissensbasis nach relevanten Dokumenten oder Einträgen. Diese Informationen werden zusammen mit der Anfrage an das LLM übergeben. Das Modell generiert dann eine Antwort, die auf den aktuellen, verifizierten Daten der Wissensbasis basiert. Das reduziert Halluzinationen erheblich und ermöglicht es, unternehmensspezifisches Wissen einzubinden.

Fine-Tuning. Bei diesem Ansatz wird ein vortrainiertes Modell mit eigenen Daten weitertrainiert. Das Modell lernt die spezifische Fachsprache, die Unternehmensprozesse und den gewünschten Schreibstil. Fine-Tuning liefert präzisere Ergebnisse als reines Prompt-Engineering, erfordert aber mehr Aufwand und qualitativ hochwertige Trainingsdaten.

Prompt-Engineering. Die einfachste Methode ist die Optimierung der Eingabeaufforderung. Durch klare Kontextvorgaben, Beispiele und Einschränkungen lässt sich die Qualität der Ausgabe deutlich verbessern. Diese Methode eignet sich besonders für den schnellen Einstieg und die Evaluation von Anwendungsfällen.

Was kostet der Einstieg in LLMs für KMU?

Preistransparenz ist ein wiederkehrendes Thema in unseren Kundengesprächen. Deshalb hier eine realistische Kostenübersicht für Mittelstandsbetriebe mit 20 bis 250 Mitarbeitern.

Kostenposition	Cloud-API	On-Premise SLM	On-Premise LLM
Hardware (einmalig)	0 Euro	2.000 - 5.000 Euro	5.000 - 15.000 Euro
API-Nutzung (monatlich)	200 - 2.000 Euro	0 Euro	0 Euro
Betrieb (monatlich)	0 Euro	300 - 500 Euro	500 - 1.500 Euro
Konzeption & Integration	5.000 - 15.000 Euro	5.000 - 20.000 Euro	10.000 - 30.000 Euro
Wartung & Weiterentwicklung	1.000 - 3.000 Euro/Jahr	3.000 - 6.000 Euro/Jahr	5.000 - 10.000 Euro/Jahr

Hinweis: Die Angaben basieren auf Projekterfahrungen mit Mittelstandsbetrieben. Die tatsächlichen Kosten hängen von Anwendungsfall, Datenmenge und Integrationskomplexität ab. Detaillierte Preisinformationen

Was sind die Risiken und wie lassen sie sich minimieren?

LLMs sind leistungsstarke Systeme, die jedoch mehrere Einschränkungen aufweisen. Ein Hauptanliegen ist die Genauigkeit. Während Halluzinationen generiert das Modell Informationen, die falsch oder irreführend sind, während sie gleichzeitig plausibel klingen. Laut einer Studie der Stanford University Hallucination Index 2024 weisen selbst die besten Modelle Halluzinationsraten zwischen drei und zehn Prozent auf, abhängig von der Domäne und der Komplexität der Anfrage.

Weitere Risiken sind die Widerspiegelung von Verzerrungen in den Trainingsdaten, der erhebliche Energieverbrauch beim Training und die Abhängigkeit von großen Technologieunternehmen bei proprietären Modellen. Für den Mittelstand kommt hinzu, dass die meisten Mitarbeiter keine Erfahrung mit der Bewertung von KI-Ausgaben haben und faktische Fehler nicht immer erkennen.

Zuverlässige Gegenmaßnahmen sind die Kombination des LLMs mit einer externen Wissensbasis durch RAG, die menschliche Freigabe kritischer Inhalte, klare Richtlinien für den Umgang mit vertraulichen Informationen und die Integration in eine mehrschichtige Architektur mit regelbasierten Sicherheitsnetzen. Bei NaveSight arbeitet das LLM immer in Kombination mit der Rules Engine, die harte Grenzen setzt, wann das Modell aktiv werden darf und welche Inhalte es verarbeiten kann.

Praxisbeispiel

Ein Beratungsunternehmen mit 45 Mitarbeitern erhält täglich zwischen zwanzig und vierzig Anfragen per E-Mail. Die Inhalte variieren stark: Angebotsanfragen, Vertragsänderungen, Support-Tickets, Rechnungsrückfragen. Bisher sortierte eine Mitarbeiterin die E-Mails manuell und leitete sie an die zuständigen Kollegen weiter. Durchschnittlich dauerte das vier Stunden pro Tag.

Mit einem SLM wurde der Prozess automatisiert. Das Modell liest jede eingehende E-Mail, klassifiziert sie nach Typ und Dringlichkeit und generiert einen Entwurf für die erste Antwort. Angebotsanfragen werden mit einer Standardvorlage beantwortet, die das Modell an den konkreten Text anpasst. Rechnungsrückfragen werden mit den aktuellen Zahlungsdaten aus der Buchhaltung verknüpft. Der Entwurf landet beim zuständigen Mitarbeiter zur Freigabe, nicht als fertige Antwort.

Die Zeitersparnis beträgt drei Stunden pro Tag. Die Fehlleitungsrate sank von zwölf auf unter zwei Prozent. Die Mitarbeiterin, die zuvor sortiert hat, übernimmt jetzt die Qualitätskontrolle der vom Modell generierten Entwürfe und pflegt die Wissensbasis mit neuen Antwortmustern. Der Einstieg dauerte zwei Wochen. Das Modell wurde zunächst auf 500 historischen E-Mails trainiert. Nach drei Monaten umfasst die Wissensbasis über 2.000 Beispiele und deckt 90 Prozent der eingehenden Anfragen ab.

Häufig gestellte Fragen

Was kostet der Einstieg in LLMs für einen Mittelstandsbetrieb?

Für einen Mittelstandsbetrieb beginnen die Kosten bei etwa 200 Euro monatlich für Cloud-APIs. Ein lokales Open-Source-System ist ab 5.000 Euro Hardware einmalig plus 500 Euro monatlich betreibbar. Eine professionelle Begleitung für Konzeption und Integration kostet zwischen 5.000 und 20.000 Euro einmalig. Detaillierte Preisübersicht

Was ist der Unterschied zwischen einem LLM und klassischer Software?

Klassische Software arbeitet mit festen Regeln: Wenn X eintritt, dann führe Y aus. Ein LLM arbeitet mit Wahrscheinlichkeiten: Gegeben Kontext Z, was ist die wahrscheinlichste Fortsetzung? Das macht LLMs flexibel für unstrukturierte Daten, aber unvorhersehbar ohne klaren Kontext. Die Kombination aus beidem – einer Rules Engine für harte Regeln und einem LLM für die Kommunikation – ist deshalb die zuverlässigste Lösung.

Sind meine Daten bei der Nutzung von LLMs sicher?

Das hängt vom Betriebsmodell ab. Cloud-basierte Modelle wie ChatGPT oder Claude senden Daten an Server in den USA. Open-Source-Modelle wie Llama oder Mistral können auf eigenen Servern in Deutschland betrieben werden, sodass keine Daten das Unternehmen verlassen. Die NaveSight-Architektur entscheidet pro Anfrage über das passende Modell. Mehr zu datensouveräner KI

Brauche ich spezialisiertes Personal für den Einsatz von LLMs?

Für den reinen API-Einsatz nicht. Für die Integration in bestehende Prozesse, die Pflege einer Wissensbasis und die Qualitätssicherung ist jedoch Fachwissen erforderlich. Viele Mittelstandsbetriebe arbeiten mit externen Partnern zusammen, anstatt eigene Spezialisten einzustellen. NaveSight begleitet den gesamten Prozess von der Evaluation bis zum produktiven Betrieb.

Was sind KI-Halluzinationen und wie lassen sie sich vermeiden?

Halluzinationen sind plausibel klingende, aber faktisch falsche Ausgaben eines LLMs. Sie entstehen, weil das Modell auf statistischen Wahrscheinlichkeiten basiert, nicht auf Faktenwissen. Zuverlässige Gegenmaßnahmen sind: RAG mit externer Wissensbasis, menschliche Freigabe von Entwürfen, klare Kontextvorgaben und die Kombination mit regelbasierten Systemen wie einer Rules Engine. Mehr zu KI-Halluzinationen

Was ist ein Small Language Model (SLM) und wann ist es sinnvoll?

Ein Small Language Model (SLM) ist eine kompakte Variante mit weniger Parametern, die auf spezifische Aufgaben trainiert wird. SLMs benötigen weniger Rechenleistung, lassen sich kostengünstiger betreiben und eignen sich besonders für einzelne, klar definierte Aufgaben im Mittelstand, etwa die Klassifizierung von E-Mails oder die Extraktion von Vertragsdaten.

Wie unterscheidet sich NaveSights Ansatz von herkömmlichen LLM-Lösungen?

NaveSight setzt das LLM als oberste Schicht auf einer mehrschichtigen Intelligenz-Schicht ein. Unterhalb arbeiten die Rules Engine und die Muster-Erkennung. Das LLM kommt erst zum Einsatz, wenn die unteren Schichten ein Signal identifiziert haben. Es übersetzt das Signal in eine verständliche Empfehlung und arbeitet immer auf Basis konkreter, validierter Daten aus der Wissensbasis. Mehr zur Technologie

Erleben Sie die Intelligenz-Schicht von NaveSight in Aktion.

30 Minuten - wir zeigen Ihnen, wie NaveSight mit Ihren spezifischen Systemen zusammenarbeitet.

Kostenlosen Maturity Check starten

Unsere Garantie: ein konkreter Aktionsplan - ob mit NaveSight oder ohne.

Wir führen 10 Maturity Checks pro Monat durch. Priorisierte Bearbeitung: 48 Stunden.

LLM