Ein Local LLM gibt Unternehmen die Möglichkeit, große Sprachmodelle auf eigener Hardware zu betreiben - ohne Daten an Cloud-Dienste zu senden. Statt sensible Geschäftsinformationen über APIs an OpenAI, Google oder Anthropic zu schicken, verarbeitet ein lokales Modell alles im eigenen Netzwerk. Kein Datenabfluss, keine laufenden API-Kosten, keine Abhängigkeit von externen Anbietern.
Für den deutschsprachigen Mittelstand ist das besonders relevant. Die DSGVO stellt strenge Anforderungen an die Verarbeitung personenbezogener Daten, und der EU AI Act verschärft die Dokumentationspflichten weiter. Wer ein Sprachmodell lokal betreibt, behält die Kontrolle über jeden Prompt und jede Antwort. Dieser Guide zeigt, welche Hardware nötig ist, welche Tools den Einstieg erleichtern und welche Open-Source-Modelle sich für den lokalen Betrieb eignen.
Welche Hardware braucht ein lokales Sprachmodell?
Die Hardware-Anforderungen hängen direkt von der Modellgröße ab. Ein Modell mit 7 Milliarden Parametern stellt andere Ansprüche als eines mit 70 Milliarden. Entscheidend sind drei Faktoren: eine GPU mit ausreichend VRAM, schneller Arbeitsspeicher und Speicherplatz für die Modelldateien.
| Modellgröße | VRAM (quantisiert) | RAM | Geeignete GPU |
|---|---|---|---|
| 7B Parameter | 4-6 GB | 8 GB | NVIDIA RTX 4060 |
| 13B Parameter | 8-10 GB | 16 GB | NVIDIA RTX 4070 Ti |
| 34B Parameter | 20-24 GB | 32 GB | NVIDIA RTX 4090 |
| 70B Parameter | 40+ GB | 64 GB | NVIDIA A100 / 2x RTX 4090 |
GPU-Betrieb mit NVIDIA
NVIDIA-Grafikkarten mit CUDA-Support sind der Standard für lokale LLMs. Der verfügbare VRAM bestimmt, welche Modellgröße geladen werden kann. Quantisierung reduziert die Rechengenauigkeit von 16 Bit auf 4 oder 8 Bit und senkt den VRAM-Bedarf erheblich. Ein 7B-Modell in 4-Bit-Quantisierung läuft problemlos auf einer Karte mit 6 GB VRAM. Das GGUF-Format hat sich als Standard für quantisierte Modelle etabliert und wird von allen gängigen Tools unterstützt.
Für Unternehmen, die mehrere Nutzer gleichzeitig bedienen wollen, empfiehlt sich eine dedizierte Server-GPU. Die NVIDIA A100 mit 80 GB VRAM kann auch 70B-Modelle ohne Einschränkungen betreiben.
CPU-only als Alternative
Wer keine dedizierte GPU hat, kann kleinere Modelle auch auf der CPU betreiben. Tools wie llama.cpp sind speziell für CPU-Inferenz optimiert und nutzen Instruktionssätze wie AVX2 und AVX-512 für schnellere Berechnungen. Die Geschwindigkeit ist deutlich niedriger als auf einer GPU: Statt 30-50 Tokens pro Sekunde erreicht eine moderne CPU etwa 5-15 Tokens pro Sekunde. Für interne Anwendungen ohne Echtzeitanforderung reicht das aus.
Die wichtigsten Tools für lokale LLMs im Vergleich
Für den lokalen Betrieb von Sprachmodellen gibt es mehrere ausgereifte Tools. Die Wahl hängt vom technischen Hintergrund und dem geplanten Einsatzzweck ab. Alle vier Werkzeuge sind Open-Source und kostenlos nutzbar.
| Tool | Zielgruppe | Stärke | Betriebssystem | Interface |
|---|---|---|---|---|
| Ollama | Entwickler, Admins | Einfache CLI, OpenAI-kompatible API | Windows, macOS, Linux | Terminal + REST-API |
| LM Studio | Einsteiger, Teams | Grafische Oberfläche (GUI) | Windows, macOS, Linux | Desktop-App |
| llama.cpp | Fortgeschrittene | Maximale Performance, CPU-optimiert | Alle Plattformen | Terminal |
| vLLM | DevOps, Produktion | Hoher Durchsatz, Continuous Batching | Linux | API-Server |
Ollama hat sich als Standard für den schnellen Einstieg etabliert. Mit einem einzigen Befehl laden und starten Sie ein Modell: ollama run llama3. Die integrierte REST-API ist kompatibel mit dem OpenAI-Format, was die Integration in bestehende Anwendungen und Workflows erleichtert. Ollama bietet außerdem ein SDK für Python und JavaScript, mit dem Entwickler lokale LLMs direkt in eigene Anwendungen einbinden können.
LM Studio richtet sich an Nutzer ohne Terminal-Erfahrung. Die grafische Oberfläche ermöglicht das Herunterladen, Konfigurieren und Testen von Modellen per Mausklick. Der eingebaute Chat und die Möglichkeit, verschiedene Modelle schnell zu wechseln, machen LM Studio zum idealen Werkzeug für die Evaluierung.
llama.cpp bildet das technische Fundament, auf dem Ollama und viele andere Tools aufbauen. Das in C++ geschriebene Projekt ist auf maximale Inferenz-Performance optimiert. Wer die volle Kontrolle über Quantisierung, Kontextlänge und Batch-Größe braucht, arbeitet direkt mit llama.cpp.
vLLM ist für Produktivumgebungen mit vielen gleichzeitigen Anfragen konzipiert. Continuous Batching und PagedAttention sorgen für hohen Durchsatz auch unter Last. Für einzelne Arbeitsplätze ist vLLM überdimensioniert, für einen unternehmensweiten KI-Service aber die passende Lösung.
Wer eine komfortable Web-Oberfläche für den Teamzugang sucht, findet in unserem Praxis-Guide zu Open WebUI eine ausführliche Einrichtungsanleitung.
Welche Open-Source-Modelle eignen sich für den lokalen Betrieb?
Die Auswahl an Open-Source-Modellen wächst schnell. Nicht jedes Modell ist für jeden Zweck geeignet. Drei Modellfamilien haben sich für den Unternehmenseinsatz besonders bewährt.
Llama 3 (Meta): Die Llama-Familie ist das meistgenutzte Open-Source-Modell für den lokalen Betrieb. Llama 3.1 gibt es in den Größen 8B, 70B und 405B Parameter. Die 8B-Variante liefert für viele Standardaufgaben - Textzusammenfassungen, E-Mail-Entwürfe, einfache Analysen - bereits solide Ergebnisse und läuft auf Consumer-Hardware mit einer GPU ab 6 GB VRAM.
Mistral und Mixtral: Das französische Unternehmen Mistral AI bietet mit Mistral 7B ein kompaktes, leistungsfähiges Modell. Das Mixture-of-Experts-Modell Mixtral 8x7B erreicht trotz seiner Gesamtgröße eine hohe Inferenzgeschwindigkeit, weil pro Anfrage nur ein Teil der Parameter aktiv ist. Für deutschsprachige Texte liefern Mistral-Modelle erfahrungsgemäß gute Ergebnisse.
Phi-3 (Microsoft) und Gemma 2 (Google): Kleinere Modelle mit 2-9 Milliarden Parametern, die für spezifische Aufgaben erstaunlich leistungsfähig sind. Phi-3 mini mit 3,8B Parametern eignet sich für Geräte mit begrenzten Ressourcen und ist schnell genug für Echtzeit-Antworten auf älterer Hardware.
Alle genannten Modelle sind im GGUF-Format verfügbar und lassen sich mit Ollama oder llama.cpp direkt laden. Einen umfassenden Überblick über Self-Hosting-Optionen bietet unser Guide zu Open Source KI im Mittelstand.
Wie installiert man ein Local LLM Schritt für Schritt?
Der schnellste Weg zum eigenen lokalen Sprachmodell führt über Ollama. Die Installation dauert keine zehn Minuten, unabhängig vom Betriebssystem.
- Ollama herunterladen und installieren (verfügbar für Windows, macOS und Linux)
- Terminal öffnen und ein Modell starten:
ollama run llama3 - Modell direkt im Terminal-Chat testen
- REST-API auf Port 11434 nutzen oder Web-Oberfläche anbinden
Ollama unter Windows und Linux einrichten
Unter Windows laden Sie den Installer von der Ollama-Website herunter. Die Installation erkennt vorhandene NVIDIA-GPUs automatisch und aktiviert CUDA-Unterstützung. Unter Linux genügt ein einziger Befehl: curl -fsSL https://ollama.com/install.sh | sh. Beide Varianten installieren Ollama als Systemdienst, der im Hintergrund läuft und Modelle bei Bedarf bereitstellt.
Nach der Installation laden Sie ein Modell Ihrer Wahl. Der Befehl ollama pull llama3 lädt das Modell herunter, ollama run llama3 startet den Chat. Ollama verwaltet die Modelle lokal und stellt Updates für neue Versionen bereit. Der gesamte Vorgang läuft offline, sobald das Modell einmal heruntergeladen ist.
Vom Terminal-Chat zur produktiven Nutzung
Für den Einsatz im Team reicht der Terminal-Chat nicht aus. Verbinden Sie Ollama mit einer Web-Oberfläche wie Open WebUI, um mehreren Mitarbeitern gleichzeitig Zugang zu geben. Die OpenAI-kompatible API ermöglicht die Integration in eigene Anwendungen, Python-Skripte und Automatisierungen. So wird aus dem lokalen Modell ein produktiver KI-Dienst für das gesamte Unternehmen.
Datenschutz und DSGVO: Warum lokale LLMs für Unternehmen relevant sind
Jede Anfrage an ChatGPT oder Gemini verlässt das Unternehmensnetzwerk. Bei einem Local LLM bleibt jeder Prompt, jede Antwort und jedes verarbeitete Dokument auf der eigenen Hardware. Das ist kein theoretischer Vorteil, sondern löst ein konkretes Problem im Unternehmensalltag.
Der EU AI Act stuft bestimmte KI-Anwendungen als Hochrisiko-Systeme ein. Unternehmen, die KI für HR-Entscheidungen, Kreditprüfungen oder Compliance-Aufgaben einsetzen, müssen die Datenverarbeitung dokumentieren und kontrollieren können. Ein lokales Modell erfüllt diese Anforderung, weil die gesamte Verarbeitungskette im eigenen Einflussbereich bleibt.
Auch die DSGVO-Anforderungen lassen sich mit lokalen LLMs einfacher einhalten. Es gibt keinen Auftragsverarbeiter, keine Datenübermittlung in Drittländer und keine Abhängigkeit von den Datenschutzrichtlinien eines US-Anbieters. Besonders für Branchen mit strengen Vertraulichkeitsanforderungen wie Steuerberatung, Recht oder Gesundheitswesen ist das ein entscheidender Faktor. Einen detaillierten Vergleich DSGVO-konformer KI-Optionen finden Sie in unserem Guide zu DSGVO-konformen KI-Tools.
Wann lohnt sich ein lokales LLM gegenüber der Cloud?
Die Entscheidung zwischen lokalem Betrieb und Cloud-API hängt von drei Faktoren ab: Datenempfindlichkeit, Nutzungsintensität und benötigte Modellqualität.
| Kriterium | Local LLM | Cloud-API (GPT-4, Claude) |
|---|---|---|
| Datenschutz | Volle Kontrolle, kein Datenabfluss | Daten werden an Dritte übermittelt |
| Kosten bei hoher Nutzung | Einmalige Hardware-Investition | Laufende Kosten, skalieren mit Nutzung |
| Modellqualität | Gut bis sehr gut (je nach Modell) | Aktuell höchste Qualität |
| Wartung | Eigenes Team oder Dienstleister nötig | Kein Wartungsaufwand |
| Latenz | Sehr niedrig im lokalen Netz | Abhängig von Internetverbindung |
| Skalierung | Begrenzt durch Hardware | Praktisch unbegrenzt |
Für Unternehmen mit sensiblen Daten und regelmäßiger KI-Nutzung rechnet sich ein lokales Modell oft schon nach wenigen Monaten. Wer täglich hunderte API-Anfragen an Cloud-Dienste stellt, zahlt schnell mehrere tausend Euro pro Monat. Ein lokaler Server mit einer leistungsfähigen GPU amortisiert sich bei dieser Nutzungsintensität innerhalb eines Quartals.
Die beste Lösung für viele Unternehmen ist ein hybrider Ansatz: Standardaufgaben wie Textzusammenfassungen, E-Mail-Entwürfe und Dokumentenanalysen laufen auf dem lokalen LLM. Für komplexe generative Aufgaben, bei denen die höchste Modellqualität entscheidend ist, greift man gezielt auf Cloud-APIs zurück.
Typische Einsatzszenarien im Mittelstand
Lokale Sprachmodelle eignen sich besonders für wiederkehrende Aufgaben mit strukturierten oder vertraulichen Daten. Drei Szenarien funktionieren in der Praxis zuverlässig.
Interne Wissensdatenbank: Ein lokales LLM durchsucht Handbücher, Prozessdokumentationen und Richtlinien und beantwortet Mitarbeiterfragen in natürlicher Sprache. Retrieval Augmented Generation (RAG) verbindet das Modell mit Ihren Dokumenten, ohne dass diese das Unternehmen verlassen. Ein 8B-Modell mit RAG-Pipeline ersetzt keine Fachexperten, liefert aber in Sekunden Antworten, für die Mitarbeiter sonst Minuten in Ordnerstrukturen suchen.
E-Mail- und Textassistenz: Antworten auf Kundenanfragen entwerfen, Berichte zusammenfassen, Besprechungsprotokolle erstellen. Ein lokales Modell erledigt das in Sekunden, ohne dass vertrauliche Kundeninformationen oder Geschäftsdaten an externe Dienste fließen.
Code-Unterstützung: Entwicklerteams nutzen lokale Modelle als Alternative zu Cloud-basierten Copilot-Diensten. Modelle wie CodeLlama oder DeepSeek Coder sind speziell für Programmieraufgaben trainiert und laufen vollständig auf der eigenen Hardware. Code-Reviews, Dokumentation und Debugging bleiben im Unternehmen.
So starten Sie mit Ihrem ersten lokalen Sprachmodell
Der Einstieg muss nicht teuer sein. Ein Arbeitsplatzrechner mit einer NVIDIA RTX 4060 und 16 GB RAM reicht für erste Tests mit 7B-Modellen. Installieren Sie Ollama, laden Sie Llama 3 herunter und testen Sie das Modell mit konkreten Aufgaben aus Ihrem Arbeitsalltag. Erst wenn der Nutzen klar ist, lohnt sich die Investition in dedizierte Server-Hardware für den produktiven Betrieb eines Local LLM.
Sie möchten KI in Ihrem Unternehmen einsetzen? Sprechen Sie uns an - wir beraten Sie unverbindlich.
Häufige Fragen
Was ist ein Local LLM?
Ein Local LLM ist ein großes Sprachmodell, das auf eigener Hardware läuft statt in der Cloud. Alle Daten bleiben im lokalen Netzwerk, es werden keine Informationen an externe Server gesendet. Unternehmen nutzen lokale LLMs für DSGVO-konforme KI-Anwendungen ohne Abhängigkeit von Cloud-Anbietern.
Welche GPU brauche ich für ein lokales LLM?
Für kleinere Modelle mit 7 Milliarden Parametern reicht eine NVIDIA RTX 4060 mit 8 GB VRAM. Größere Modelle wie Llama 3.1 70B benötigen mindestens 40 GB VRAM, also eine NVIDIA A100 oder zwei RTX 4090 im Verbund. Quantisierung auf 4 Bit reduziert den VRAM-Bedarf erheblich.
Kann ich ein LLM ohne GPU auf der CPU betreiben?
Ja, Tools wie llama.cpp sind speziell für CPU-Inferenz optimiert. Die Geschwindigkeit ist mit 5-15 Tokens pro Sekunde deutlich niedriger als auf einer GPU, aber für viele Anwendungen ausreichend. Besonders 7B-Modelle in quantisierter Form laufen auf modernen CPUs akzeptabel schnell.
Was ist der Unterschied zwischen Ollama und LM Studio?
Ollama ist ein kommandozeilenbasiertes Tool mit REST-API, das sich besonders für Entwickler und die Integration in Anwendungen eignet. LM Studio bietet eine grafische Oberfläche und ist einsteigerfreundlicher. Beide Tools nutzen dasselbe GGUF-Modellformat und sind kostenlos.
Welches Open-Source-Modell ist das beste für lokalen Betrieb?
Das hängt vom Einsatzzweck ab. Llama 3.1 8B von Meta ist der beste Allrounder für Standardaufgaben auf Consumer-Hardware. Mistral 7B liefert gute Ergebnisse bei deutschsprachigen Texten. Für Programmieraufgaben eignen sich spezialisierte Modelle wie CodeLlama oder DeepSeek Coder.
Ist ein lokales LLM DSGVO-konform?
Ein lokal betriebenes LLM vereinfacht die DSGVO-Konformität erheblich, weil keine personenbezogenen Daten an Dritte übermittelt werden. Es entfällt die Notwendigkeit eines Auftragsverarbeitungsvertrags mit einem Cloud-Anbieter. Die Verantwortung für den ordnungsgemäßen Betrieb liegt allerdings weiterhin beim Unternehmen selbst.
Wie viel kostet der Betrieb eines lokalen LLM?
Die Hauptkosten sind die einmalige Hardware-Investition. Eine NVIDIA RTX 4090 kostet etwa 1.800-2.200 Euro, ein vollständiger Server mit A100-GPU liegt bei 10.000-15.000 Euro. Dazu kommen Stromkosten von etwa 50-150 Euro pro Monat je nach Auslastung. Im Vergleich zu Cloud-API-Kosten bei intensiver Nutzung amortisiert sich die Hardware oft innerhalb weniger Monate.
Kann ein lokales LLM mit ChatGPT mithalten?
Bei Standardaufgaben wie Textzusammenfassungen, E-Mail-Entwürfen und einfachen Analysen liefern aktuelle Open-Source-Modelle vergleichbare Ergebnisse. Bei komplexen Reasoning-Aufgaben und kreativen Texten haben Cloud-Modelle wie GPT-4o oder Claude aktuell noch Vorteile. Für die meisten Unternehmensanwendungen reicht die Qualität lokaler Modelle aber aus.
Was ist Quantisierung bei LLMs?
Quantisierung reduziert die Rechengenauigkeit eines Modells von 16 Bit auf 4 oder 8 Bit. Das senkt den VRAM-Bedarf um den Faktor 2-4 bei nur geringem Qualitätsverlust. Das GGUF-Format ist der Standard für quantisierte Modelle und wird von Ollama und llama.cpp direkt unterstützt.
Wie verbinde ich ein lokales LLM mit meinen Unternehmensdaten?
Über Retrieval Augmented Generation (RAG) können Sie ein lokales LLM mit Ihren eigenen Dokumenten verbinden. Das Modell durchsucht dabei Ihre Dateien und nutzt relevante Inhalte als Kontext für seine Antworten. Tools wie Open WebUI bieten RAG-Funktionen direkt in der Oberfläche an, ohne dass Programmierung nötig ist.
Sie möchten KI in Ihrem Unternehmen einsetzen? Sprechen Sie uns an - wir beraten Sie unverbindlich.