Local LLM: Sprachmodelle lokal betreiben für volle Datenkontrolle

Ein Local LLM gibt Unternehmen die Möglichkeit, große Sprachmodelle auf eigener Hardware zu betreiben - ohne Daten an Cloud-Dienste zu senden. Statt sensible Geschäftsinformationen über APIs an OpenAI, Google oder Anthropic zu schicken, verarbeitet ein lokales Modell alles im eigenen Netzwerk. Kein Datenabfluss, keine laufenden API-Kosten, keine Abhängigkeit von externen Anbietern.

Für den deutschsprachigen Mittelstand ist das besonders relevant. Die DSGVO stellt strenge Anforderungen an die Verarbeitung personenbezogener Daten, und der EU AI Act verschärft die Dokumentationspflichten weiter. Wer ein Sprachmodell lokal betreibt, behält die Kontrolle über jeden Prompt und jede Antwort. Dieser Guide zeigt, welche Hardware nötig ist, welche Tools den Einstieg erleichtern und welche Open-Source-Modelle sich für den lokalen Betrieb eignen.

Welche Hardware braucht ein lokales Sprachmodell?

Die Hardware-Anforderungen hängen direkt von der Modellgröße ab. Ein Modell mit 7 Milliarden Parametern stellt andere Ansprüche als eines mit 70 Milliarden. Entscheidend sind drei Faktoren: eine GPU mit ausreichend VRAM, schneller Arbeitsspeicher und Speicherplatz für die Modelldateien.

Modellgröße	VRAM (quantisiert)	RAM	Geeignete GPU
7B Parameter	4-6 GB	8 GB	NVIDIA RTX 4060
13B Parameter	8-10 GB	16 GB	NVIDIA RTX 4070 Ti
34B Parameter	20-24 GB	32 GB	NVIDIA RTX 4090
70B Parameter	40+ GB	64 GB	NVIDIA A100 / 2x RTX 4090

GPU-Betrieb mit NVIDIA

NVIDIA-Grafikkarten mit CUDA-Support sind der Standard für lokale LLMs. Der verfügbare VRAM bestimmt, welche Modellgröße geladen werden kann. Quantisierung reduziert die Rechengenauigkeit von 16 Bit auf 4 oder 8 Bit und senkt den VRAM-Bedarf erheblich. Ein 7B-Modell in 4-Bit-Quantisierung läuft problemlos auf einer Karte mit 6 GB VRAM. Das GGUF-Format hat sich als Standard für quantisierte Modelle etabliert und wird von allen gängigen Tools unterstützt.

Für Unternehmen, die mehrere Nutzer gleichzeitig bedienen wollen, empfiehlt sich eine dedizierte Server-GPU. Die NVIDIA A100 mit 80 GB VRAM kann auch 70B-Modelle ohne Einschränkungen betreiben.

CPU-only als Alternative

Wer keine dedizierte GPU hat, kann kleinere Modelle auch auf der CPU betreiben. Tools wie llama.cpp sind speziell für CPU-Inferenz optimiert und nutzen Instruktionssätze wie AVX2 und AVX-512 für schnellere Berechnungen. Die Geschwindigkeit ist deutlich niedriger als auf einer GPU: Statt 30-50 Tokens pro Sekunde erreicht eine moderne CPU etwa 5-15 Tokens pro Sekunde. Für interne Anwendungen ohne Echtzeitanforderung reicht das aus.

Die wichtigsten Tools für lokale LLMs im Vergleich

Für den lokalen Betrieb von Sprachmodellen gibt es mehrere ausgereifte Tools. Wichtig ist die Trennung zwischen Laufzeit, Modellverwaltung, Teamoberfläche und produktivem API-Betrieb. Nicht jedes Tool ersetzt die anderen.

Tool	Zielgruppe	Stärke	Betriebssystem	Interface
Ollama	Entwickler, Admins	Einfache CLI, OpenAI-kompatible API	Windows, macOS, Linux	Terminal + REST-API
LM Studio	Einsteiger, Teams	Grafische Oberfläche (GUI)	Windows, macOS, Linux	Desktop-App
llama.cpp	Fortgeschrittene	Maximale Performance, CPU-optimiert	Alle Plattformen	Terminal
vLLM	DevOps, Produktion	Hoher Durchsatz, Continuous Batching	Linux	API-Server
SGLang	DevOps, Produktion	Schnelles Serving für Agenten- und Tool-Workflows	Linux	API-Server
OpenGUI	Teams, Agenturen	Gemeinsame Oberfläche für KI-Workflows und Agenten	Desktop/Web	Teamoberfläche

Ollama hat sich als Standard für den schnellen Einstieg etabliert. Mit einem einzigen Befehl laden und starten Sie ein Modell: ollama run llama3. Die integrierte REST-API ist kompatibel mit dem OpenAI-Format, was die Integration in bestehende Anwendungen und Workflows erleichtert. Ollama bietet außerdem ein SDK für Python und JavaScript, mit dem Entwickler lokale LLMs direkt in eigene Anwendungen einbinden können.

LM Studio richtet sich an Nutzer ohne Terminal-Erfahrung. Die grafische Oberfläche ermöglicht das Herunterladen, Konfigurieren und Testen von Modellen per Mausklick. Der eingebaute Chat und die Möglichkeit, verschiedene Modelle schnell zu wechseln, machen LM Studio zum idealen Werkzeug für die Evaluierung.

llama.cpp bildet das technische Fundament, auf dem Ollama und viele andere Tools aufbauen. Das in C++ geschriebene Projekt ist auf maximale Inferenz-Performance optimiert. Wer die volle Kontrolle über Quantisierung, Kontextlänge und Batch-Größe braucht, arbeitet direkt mit llama.cpp.

vLLM ist für Produktivumgebungen mit vielen gleichzeitigen Anfragen konzipiert. Continuous Batching und PagedAttention sorgen für hohen Durchsatz auch unter Last. Für einzelne Arbeitsplätze ist vLLM überdimensioniert, für einen unternehmensweiten KI-Service aber die passende Lösung.

SGLang ist eine weitere Option für produktives Serving, besonders wenn strukturierte Agenten-, Tool- oder mehrstufige Reasoning-Workflows wichtig sind. In vielen Unternehmen ist die praktische Entscheidung deshalb nicht “Ollama oder vLLM”, sondern: Ollama für Tests und kleinere interne Dienste, vLLM oder SGLang für Last, Parallelität und API-Betrieb.

OpenGUI ist keine Modell-Laufzeit, sondern die Teamoberfläche darüber. Sie eignet sich, wenn mehrere Mitarbeitende oder Projektteams mit KI-Agenten, lokalen Modellen und externen APIs arbeiten sollen. Die eigentlichen Abhängigkeiten bleiben GPU-Treiber, Modell-Backend, Speicher, Rechteverwaltung und bei Wissensdatenbanken zusätzlich eine Vektor-Datenbank wie Qdrant oder PostgreSQL mit pgvector.

Welche Open-Source-Modelle eignen sich für den lokalen Betrieb?

Die Auswahl an Open-Weight-Modellen wächst schnell. Nicht jedes Modell ist für jeden Zweck geeignet. Für den Unternehmenseinsatz haben sich vor allem kompakte Allrounder, Reasoning-Modelle, Coding-Modelle und größere Servermodelle bewährt.

Llama 3 (Meta): Die Llama-Familie ist das meistgenutzte Open-Weight-Modell für den lokalen Betrieb. Llama 3.1 gibt es in den Größen 8B, 70B und 405B Parameter. Die 8B-Variante liefert für viele Standardaufgaben - Textzusammenfassungen, E-Mail-Entwürfe, einfache Analysen - bereits solide Ergebnisse und läuft auf Consumer-Hardware mit einer GPU ab 6 GB VRAM.

Mistral und Mixtral: Das französische Unternehmen Mistral AI bietet mit Mistral 7B ein kompaktes, leistungsfähiges Modell. Das Mixture-of-Experts-Modell Mixtral 8x7B erreicht trotz seiner Gesamtgröße eine hohe Inferenzgeschwindigkeit, weil pro Anfrage nur ein Teil der Parameter aktiv ist. Für deutschsprachige Texte liefern Mistral-Modelle erfahrungsgemäß gute Ergebnisse.

Phi, Gemma und SmolLM: Kleinere Modelle mit etwa 1 bis 14 Milliarden Parametern sind für Geräte mit begrenzten Ressourcen interessant. Sie eignen sich für Zusammenfassungen, Klassifikation, einfache Assistenz und interne Tests, ersetzen aber kein großes Premium-Modell für komplexe Strategie- oder Analyseaufgaben.

Qwen und DeepSeek: Qwen-Modelle sind starke Allrounder für mehrsprachige Aufgaben, strukturierte Ausgaben und Coding. DeepSeek R1 und die destillierten Varianten eignen sich besonders für Reasoning, Mathematik, Analyse und Code. Die kleineren Distill-Modelle laufen lokal auf Workstations, die großen Varianten gehören auf dedizierte GPU-Server.

Kimi: Kimi-Modelle von Moonshot AI sind ebenfalls lokal beziehungsweise selbst gehostet nutzbar, aber nicht in derselben Hardwareklasse wie ein 7B-Modell. Kimi K2 und Coding-Varianten sind große Mixture-of-Experts-Modelle. Für Unternehmen bedeutet das: technisch interessant für eigene GPU-Server, Private Cloud oder spezialisierte Hosting-Setups, aber nicht realistisch als Standardmodell auf normalen Business-Laptops.

Viele kleinere und mittlere Modelle sind im GGUF-Format verfügbar und lassen sich mit Ollama oder llama.cpp direkt laden. Große MoE-Modelle und produktive Multi-User-Setups benötigen dagegen meist vLLM, SGLang, mehrere GPUs oder einen spezialisierten Hosting-Anbieter. Einen umfassenden Überblick über Self-Hosting-Optionen bietet unser Guide zu Open Source KI im Mittelstand.

Wie installiert man ein Local LLM Schritt für Schritt?

Der schnellste Weg zum eigenen lokalen Sprachmodell führt über Ollama. Die Installation dauert keine zehn Minuten, unabhängig vom Betriebssystem.

Ollama herunterladen und installieren (verfügbar für Windows, macOS und Linux)
Terminal öffnen und ein Modell starten: ollama run llama3
Modell direkt im Terminal-Chat testen
REST-API auf Port 11434 nutzen oder Web-Oberfläche anbinden

Ollama unter Windows und Linux einrichten

Unter Windows laden Sie den Installer von der Ollama-Website herunter. Die Installation erkennt vorhandene NVIDIA-GPUs automatisch und aktiviert CUDA-Unterstützung. Unter Linux genügt ein einziger Befehl: curl -fsSL https://ollama.com/install.sh | sh. Beide Varianten installieren Ollama als Systemdienst, der im Hintergrund läuft und Modelle bei Bedarf bereitstellt.

Nach der Installation laden Sie ein Modell Ihrer Wahl. Der Befehl ollama pull llama3 lädt das Modell herunter, ollama run llama3 startet den Chat. Ollama verwaltet die Modelle lokal und stellt Updates für neue Versionen bereit. Der gesamte Vorgang läuft offline, sobald das Modell einmal heruntergeladen ist.

Vom Terminal-Chat zur produktiven Nutzung

Für den Einsatz im Team reicht der Terminal-Chat nicht aus. Verbinden Sie das lokale Backend mit einer Teamoberfläche wie OpenGUI, damit mehrere Mitarbeitende KI-Workflows sichtbar und steuerbar nutzen können. Die OpenAI-kompatible API ermöglicht die Integration in eigene Anwendungen, Python-Skripte und Automatisierungen. So wird aus dem lokalen Modell ein produktiver KI-Dienst für das gesamte Unternehmen.

Datenschutz und DSGVO: Warum lokale LLMs für Unternehmen relevant sind

Jede Anfrage an ChatGPT oder Gemini verlässt das Unternehmensnetzwerk. Bei einem Local LLM bleibt jeder Prompt, jede Antwort und jedes verarbeitete Dokument auf der eigenen Hardware. Das ist kein theoretischer Vorteil, sondern löst ein konkretes Problem im Unternehmensalltag.

Der EU AI Act stuft bestimmte KI-Anwendungen als Hochrisiko-Systeme ein. Unternehmen, die KI für HR-Entscheidungen, Kreditprüfungen oder Compliance-Aufgaben einsetzen, müssen die Datenverarbeitung dokumentieren und kontrollieren können. Ein lokales Modell erfüllt diese Anforderung, weil die gesamte Verarbeitungskette im eigenen Einflussbereich bleibt.

Auch die DSGVO-Anforderungen lassen sich mit lokalen LLMs einfacher einhalten. Es gibt keinen Auftragsverarbeiter, keine Datenübermittlung in Drittländer und keine Abhängigkeit von den Datenschutzrichtlinien eines US-Anbieters. Besonders für Branchen mit strengen Vertraulichkeitsanforderungen wie Steuerberatung, Recht oder Gesundheitswesen ist das ein entscheidender Faktor. Einen detaillierten Vergleich DSGVO-konformer KI-Optionen finden Sie in unserem Guide zu DSGVO-konformen KI-Tools.

Wann lohnt sich ein lokales LLM gegenüber der Cloud?

Die Entscheidung zwischen lokalem Betrieb und Cloud-API hängt von drei Faktoren ab: Datenempfindlichkeit, Nutzungsintensität und benötigte Modellqualität.

Kriterium	Local LLM	Cloud-API (GPT-4, Claude)
Datenschutz	Volle Kontrolle, kein Datenabfluss	Daten werden an Dritte übermittelt
Kosten bei hoher Nutzung	Einmalige Hardware-Investition	Laufende Kosten, skalieren mit Nutzung
Modellqualität	Gut bis sehr gut (je nach Modell)	Aktuell höchste Qualität
Wartung	Eigenes Team oder Dienstleister nötig	Kein Wartungsaufwand
Latenz	Sehr niedrig im lokalen Netz	Abhängig von Internetverbindung
Skalierung	Begrenzt durch Hardware	Praktisch unbegrenzt

Für Unternehmen mit sensiblen Daten und regelmäßiger KI-Nutzung rechnet sich ein lokales Modell oft schon nach wenigen Monaten. Wer täglich hunderte API-Anfragen an Cloud-Dienste stellt, zahlt schnell mehrere tausend Euro pro Monat. Ein lokaler Server mit einer leistungsfähigen GPU amortisiert sich bei dieser Nutzungsintensität innerhalb eines Quartals.

Die beste Lösung für viele Unternehmen ist ein hybrider Ansatz: Standardaufgaben wie Textzusammenfassungen, E-Mail-Entwürfe und Dokumentenanalysen laufen auf dem lokalen LLM. Für komplexe generative Aufgaben, bei denen die höchste Modellqualität entscheidend ist, greift man gezielt auf Cloud-APIs zurück. Amazon Bedrock passt hier als Enterprise-Baustein hinein: Unternehmen können Claude, Llama, Mistral, Amazon Nova oder andere Foundation Models über die AWS-Infrastruktur nutzen und mit Guardrails, Knowledge Bases, IAM-Rechten und bestehenden AWS-Prozessen kombinieren. Für sensible Daten bleibt lokal oder Private Cloud die bessere erste Wahl; für skalierbare Enterprise-Workloads ist Bedrock eine saubere Ergänzung zur lokalen Strategie.

Typische Einsatzszenarien im Mittelstand

Lokale Sprachmodelle eignen sich besonders für wiederkehrende Aufgaben mit strukturierten oder vertraulichen Daten. Drei Szenarien funktionieren in der Praxis zuverlässig.

Interne Wissensdatenbank: Ein lokales LLM durchsucht Handbücher, Prozessdokumentationen und Richtlinien und beantwortet Mitarbeiterfragen in natürlicher Sprache. Retrieval Augmented Generation (RAG) verbindet das Modell mit Ihren Dokumenten, ohne dass diese das Unternehmen verlassen. Ein 8B-Modell mit RAG-Pipeline ersetzt keine Fachexperten, liefert aber in Sekunden Antworten, für die Mitarbeiter sonst Minuten in Ordnerstrukturen suchen.

E-Mail- und Textassistenz: Antworten auf Kundenanfragen entwerfen, Berichte zusammenfassen, Besprechungsprotokolle erstellen. Ein lokales Modell erledigt das in Sekunden, ohne dass vertrauliche Kundeninformationen oder Geschäftsdaten an externe Dienste fließen.

Code-Unterstützung: Entwicklerteams nutzen lokale Modelle als Alternative zu Cloud-basierten Copilot-Diensten. Modelle wie CodeLlama oder DeepSeek Coder sind speziell für Programmieraufgaben trainiert und laufen vollständig auf der eigenen Hardware. Code-Reviews, Dokumentation und Debugging bleiben im Unternehmen.

So starten Sie mit Ihrem ersten lokalen Sprachmodell

Der Einstieg muss nicht teuer sein. Ein Arbeitsplatzrechner mit einer NVIDIA RTX 4060 und 16 GB RAM reicht für erste Tests mit 7B-Modellen. Installieren Sie Ollama, laden Sie Llama 3 herunter und testen Sie das Modell mit konkreten Aufgaben aus Ihrem Arbeitsalltag. Erst wenn der Nutzen klar ist, lohnt sich die Investition in dedizierte Server-Hardware für den produktiven Betrieb eines Local LLM.

Sie möchten KI in Ihrem Unternehmen einsetzen? Sprechen Sie uns an - wir beraten Sie unverbindlich.

Interaktiver Check

Welches KI-Modell passt zu Ihrem Setup?

Der Check kombiniert eine grobe Browser-Erkennung mit manueller Geräteauswahl. So sehen Sie, ob ein lokales Modell reicht oder ob ein Server-Setup für Ihr Unternehmen sinnvoller ist.

1. Gerät und Hardware

Hinweis: Browser dürfen RAM und GPU nur eingeschränkt auslesen. Korrigieren Sie die Werte bei Bedarf manuell.

Endgerät

RAM CPU-Kerne

GPU-Klasse VRAM

2. Unternehmenskontext

Wie sensibel sind die Daten? Wie viele Nutzer sollen regelmäßig arbeiten? Priorität Geplanter Einsatz

Eignung 0

Empfehlung

Wird berechnet

Lokale Modelle

Auswahl kuratierter Open-Weight-Modelle. Die tatsächliche Geschwindigkeit hängt von Quantisierung, Kontextlänge, Backend und Treibern ab.

Server- und Cloud-Optionen

Für Teams zählt nicht nur Modellqualität, sondern auch Zugriffskontrolle, Protokollierung, Datenschutz und Wartung.

Nächster sinnvoller Schritt: Setup prüfen lassen

Häufige Fragen

Was ist ein Local LLM?

Ein Local LLM ist ein großes Sprachmodell, das auf eigener Hardware läuft statt in der Cloud. Alle Daten bleiben im lokalen Netzwerk, es werden keine Informationen an externe Server gesendet. Unternehmen nutzen lokale LLMs für DSGVO-konforme KI-Anwendungen ohne Abhängigkeit von Cloud-Anbietern.

Welche GPU brauche ich für ein lokales LLM?

Für kleinere Modelle mit 7 Milliarden Parametern reicht eine NVIDIA RTX 4060 mit 8 GB VRAM. Größere Modelle wie Llama 3.1 70B benötigen mindestens 40 GB VRAM, also eine NVIDIA A100 oder zwei RTX 4090 im Verbund. Quantisierung auf 4 Bit reduziert den VRAM-Bedarf erheblich.

Kann ich ein LLM ohne GPU auf der CPU betreiben?

Ja, Tools wie llama.cpp sind speziell für CPU-Inferenz optimiert. Die Geschwindigkeit ist mit 5-15 Tokens pro Sekunde deutlich niedriger als auf einer GPU, aber für viele Anwendungen ausreichend. Besonders 7B-Modelle in quantisierter Form laufen auf modernen CPUs akzeptabel schnell.

Was ist der Unterschied zwischen Ollama und LM Studio?

Ollama ist ein kommandozeilenbasiertes Tool mit REST-API, das sich besonders für Entwickler und die Integration in Anwendungen eignet. LM Studio bietet eine grafische Oberfläche und ist einsteigerfreundlicher. Beide Tools nutzen dasselbe GGUF-Modellformat und sind kostenlos.

Welches Open-Source-Modell ist das beste für lokalen Betrieb?

Das hängt vom Einsatzzweck ab. Llama 3.1 8B von Meta ist der beste Allrounder für Standardaufgaben auf Consumer-Hardware. Mistral 7B liefert gute Ergebnisse bei deutschsprachigen Texten. Für Programmieraufgaben eignen sich spezialisierte Modelle wie CodeLlama oder DeepSeek Coder.

Ist ein lokales LLM DSGVO-konform?

Ein lokal betriebenes LLM vereinfacht die DSGVO-Konformität erheblich, weil keine personenbezogenen Daten an Dritte übermittelt werden. Es entfällt die Notwendigkeit eines Auftragsverarbeitungsvertrags mit einem Cloud-Anbieter. Die Verantwortung für den ordnungsgemäßen Betrieb liegt allerdings weiterhin beim Unternehmen selbst.

Wie viel kostet der Betrieb eines lokalen LLM?

Die Hauptkosten sind die einmalige Hardware-Investition. Eine NVIDIA RTX 4090 kostet etwa 1.800-2.200 Euro, ein vollständiger Server mit A100-GPU liegt bei 10.000-15.000 Euro. Dazu kommen Stromkosten von etwa 50-150 Euro pro Monat je nach Auslastung. Im Vergleich zu Cloud-API-Kosten bei intensiver Nutzung amortisiert sich die Hardware oft innerhalb weniger Monate.

Kann ein lokales LLM mit ChatGPT mithalten?

Bei Standardaufgaben wie Textzusammenfassungen, E-Mail-Entwürfen und einfachen Analysen liefern aktuelle Open-Source-Modelle vergleichbare Ergebnisse. Bei komplexen Reasoning-Aufgaben und kreativen Texten haben Cloud-Modelle wie GPT-4o oder Claude aktuell noch Vorteile. Für die meisten Unternehmensanwendungen reicht die Qualität lokaler Modelle aber aus.

Was ist Quantisierung bei LLMs?

Quantisierung reduziert die Rechengenauigkeit eines Modells von 16 Bit auf 4 oder 8 Bit. Das senkt den VRAM-Bedarf um den Faktor 2-4 bei nur geringem Qualitätsverlust. Das GGUF-Format ist der Standard für quantisierte Modelle und wird von Ollama und llama.cpp direkt unterstützt.

Wie verbinde ich ein lokales LLM mit meinen Unternehmensdaten?

Über Retrieval Augmented Generation (RAG) können Sie ein lokales LLM mit Ihren eigenen Dokumenten verbinden. Das Modell durchsucht dabei Ihre Dateien und nutzt relevante Inhalte als Kontext für seine Antworten. Technisch braucht es dafür neben dem Modell meist eine Dokumenten-Pipeline, Embeddings und eine Vektor-Datenbank wie Qdrant oder PostgreSQL mit pgvector. Eine Teamoberfläche wie OpenGUI kann den Zugriff bündeln, ersetzt diese RAG-Abhängigkeiten aber nicht.

Sie möchten KI in Ihrem Unternehmen einsetzen? Sprechen Sie uns an - wir beraten Sie unverbindlich.