GPT-OSS ist das erste vollständig quelloffene Sprachmodell von OpenAI - und es verändert die Spielregeln im Open-Source-KI-Markt. Mit 117 Milliarden Parametern, Apache-2.0-Lizenz und einer Mixture-of-Experts-Architektur liefert das Modell Leistung auf dem Niveau kommerzieller APIs, läuft aber auf einer einzigen GPU. Für mittelständische Unternehmen im DACH-Raum eröffnet das eine neue Option: leistungsfähige KI auf eigener Infrastruktur betreiben, ohne API-Kosten und ohne Geschäftsdaten an US-Cloud-Dienste zu senden. Laut Bitkom Open Source Monitor 2025 setzen bereits 73 Prozent der deutschen Unternehmen Open-Source-Software ein. Damit kommt jetzt ein Modell hinzu, das auch bei anspruchsvollen Aufgaben wie Reasoning und Code-Generierung überzeugt.
GPT-OSS auf einen Blick
Kennzahl Wert Gesamtparameter 117 Milliarden (MoE-Architektur) Aktive Parameter pro Anfrage 5,1 Milliarden Lizenz Apache 2.0 (permissiv) Minimum-Hardware 1x 80-GB-GPU (H100 / MI300X) GPQA Diamond (High Reasoning) 80,9 % Downloads pro Monat 4,9 Millionen Quellen: OpenAI Model Card, HuggingFace (Stand Mai 2026)
Was genau steckt hinter GPT-OSS?
GPT-OSS steht für “GPT Open Source Software” und ist OpenAIs erstes Sprachmodell unter einer permissiven Open-Source-Lizenz. Anders als GPT-4 oder GPT-4o, die ausschließlich über die API zugänglich sind, liegt der komplette Quellcode auf GitHub. Die Modellgewichte stehen auf HuggingFace zum Download bereit. Unternehmen dürfen das Modell kommerziell nutzen, anpassen und in eigene Produkte einbauen - ohne Lizenzgebühren.
Die technische Besonderheit ist die Mixture-of-Experts-Architektur (MoE). Das Modell hat zwar 117 Milliarden Parameter insgesamt, aktiviert bei jeder Anfrage aber nur rund 5,1 Milliarden davon. Das spart Rechenleistung und Speicher erheblich. Ein vergleichbares dichtes Modell mit ähnlicher Leistung bräuchte ein Vielfaches an GPU-Speicher. Das Modell bietet drei konfigurierbare Reasoning-Stufen (Low, Medium, High), die je nach Aufgabe unterschiedlich viel Rechenzeit einsetzen. Bei einfachen Textaufgaben reicht die Low-Stufe. Für komplexe Analysen oder Code-Aufgaben liefert die High-Stufe deutlich bessere Ergebnisse - etwa 80,9 Prozent im GPQA-Diamond-Benchmark laut HuggingFace.
Neben dem großen Modell gibt es mit GPT-OSS-20B eine kleinere Variante mit 21 Milliarden Parametern und 3,6 Milliarden aktiven Parametern. Diese Variante eignet sich besonders für erste Tests oder Unternehmen mit begrenztem Hardware-Budget.
Warum hat OpenAI ein Open-Source-Modell veröffentlicht?
OpenAI reagiert mit GPT-OSS auf einen Markt, der sich seit 2023 grundlegend verschoben hat. Meta hat mit Llama vorgelegt, Mistral und DeepSeek haben nachgezogen. Offene Modelle sind längst keine Nische mehr - sie sind zur ernsthaften Alternative für Unternehmen geworden, die nicht von einem einzigen Anbieter abhängig sein wollen. OpenAI stand vor der Wahl: den Open-Source-Markt den Wettbewerbern überlassen oder selbst mitspielen.
Die Entscheidung für Apache 2.0 ist dabei bemerkenswert. Diese Lizenz erlaubt kommerzielle Nutzung, Modifikation und Weiterverteilung ohne Einschränkungen. Im Gegensatz zu Metas Llama-Lizenz, die kommerzielle Nutzung ab einer bestimmten Nutzerzahl begrenzt, gibt es bei Apache 2.0 keine solchen Hürden. Für Unternehmen bedeutet das Planungssicherheit: Wer heute auf GPT-OSS setzt, muss sich keine Sorgen um spätere Lizenzänderungen machen.
Ein weiterer Grund ist das Ökosystem. Je mehr Entwickler ein Modell nutzen, testen und verbessern, desto wertvoller wird es. Die 4,9 Millionen monatlichen Downloads auf HuggingFace zeigen, dass die Rechnung aufgeht. OpenAI stärkt damit seine Marke im Open-Source-Bereich und schafft gleichzeitig eine Pipeline für Nutzer, die später auf kommerzielle Produkte umsteigen.
Wie schlägt sich GPT-OSS gegen Llama und Mistral?
Der Open-Source-KI-Markt hat 2025 und 2026 eine rasante Entwicklung durchlaufen. Für Unternehmen, die ein Modell für den eigenen Betrieb auswählen, zählen vor allem Lizenz, Hardwarebedarf und Praxistauglichkeit. Die folgende Tabelle ordnet die wichtigsten offenen Modelle ein.
| Modell | Parameter (aktiv) | Lizenz | Min. GPU-Speicher | Reasoning | Besonderheit |
|---|---|---|---|---|---|
| GPT-OSS-120B | 117B (5,1B aktiv) | Apache 2.0 | 80 GB | 3 Stufen | MoE, Function Calling |
| GPT-OSS-20B | 21B (3,6B aktiv) | Apache 2.0 | 24 GB | 3 Stufen | Kompaktes Einstiegsmodell |
| Llama 3.1 405B | 405B (dicht) | Llama Community | 320+ GB | Nein | Größtes Meta-Modell |
| Llama 3.1 70B | 70B (dicht) | Llama Community | 140 GB | Nein | Bewährter Allrounder |
| Mistral Large 2 | 123B (dicht) | Apache 2.0 | 250+ GB | Nein | Starke Code-Fähigkeiten |
| DeepSeek-V3 | 671B (37B aktiv) | MIT | 80 GB | Ja | MoE, sehr effizient |
GPT-OSS positioniert sich durch die Kombination aus permissiver Lizenz und niedrigem Hardwarebedarf. Während Llama 3.1 in der 70B-Variante bereits 140 GB GPU-Speicher braucht, läuft OpenAIs Modell mit effektiv 5,1 Milliarden aktiven Parametern auf einer einzigen H100. DeepSeek-V3 nutzt ein ähnliches MoE-Prinzip und ist ebenfalls auf 80 GB lauffähig, stammt allerdings aus China - was für manche Unternehmen im DACH-Raum bei der Lieferantenauswahl eine Rolle spielt.
Für Betriebe mit weniger als 500 Mitarbeitern eignen sich GPT-OSS-120B und DeepSeek-V3 am besten, weil sie auf einer einzelnen GPU laufen und trotzdem starke Ergebnisse liefern. Wer den Einstieg mit noch weniger Aufwand sucht, startet mit GPT-OSS-20B auf einer handelsüblichen RTX 4090.
Welche Hardware braucht GPT-OSS im Unternehmen?
Die Hardwareanforderungen entscheiden oft darüber, ob ein Modell für den Mittelstand realistisch ist. Das Modell senkt die Einstiegshürde deutlich im Vergleich zu vergleichbar leistungsfähigen Modellen. Je nach Variante und Einsatzszenario gibt es zwei Wege.
Das große Modell für den Produktionsbetrieb
Für GPT-OSS-120B reicht eine einzelne NVIDIA H100 mit 80 GB Speicher oder eine AMD MI300X. Bei einem Hosting-Anbieter wie Hetzner kostet ein dedizierter GPU-Server mit H100 zwischen 2.000 und 3.500 Euro monatlich. Im Vergleich zu API-Kosten bei intensiver Nutzung kann sich das bereits ab einem Team von 20 bis 30 Mitarbeitern rechnen. Die MXFP4-Quantisierung der MoE-Gewichte sorgt dafür, dass das Modell trotz 117 Milliarden Parametern in den Speicher passt.
Die kompakte Variante für den Einstieg
GPT-OSS-20B läuft auf einer GPU mit 24 GB Speicher - etwa einer NVIDIA RTX 4090 oder A5000. Solche Karten kosten im Cloud-Hosting ab 200 Euro monatlich. Für einen ersten Proof-of-Concept oder ein kleines Team reicht das völlig. Wer testen will, ob KI auf eigener Infrastruktur für das eigene Unternehmen funktioniert, startet hier.
Inference-Frameworks für die Bereitstellung
Das Modell lässt sich über mehrere Frameworks bereitstellen. Die gängigsten Optionen:
- Ollama - der einfachste Einstieg. Ein Befehl genügt, und das Modell läuft lokal. Ideal für erste Tests und kleine Teams.
- vLLM - optimiert für hohen Durchsatz bei vielen parallelen Anfragen. Sinnvoll ab 10 bis 15 gleichzeitigen Nutzern.
- Triton Inference Server - für produktive Umgebungen mit Monitoring, Lastverteilung und Skalierung. Die Wahl für den Dauerbetrieb.
In unserem Open-Source-KI-Guide beschreiben wir den kompletten Weg vom Server-Setup bis zur produktiven Nutzung mit Ollama und Open WebUI.
Wie setzen Unternehmen GPT-OSS konkret ein?
Die konfigurierbaren Reasoning-Stufen und die eingebauten Agentic Capabilities wie Function Calling machen das Modell vielseitig einsetzbar. Drei typische Szenarien aus dem Unternehmensalltag zeigen, wo das Modell Mehrwert liefert.
Dokumentenanalyse und Textverarbeitung
Ein mittelständischer Maschinenbauer mit 200 Mitarbeitern verarbeitet täglich Dutzende Anfragen, technische Dokumentationen und Angebote. Das Sprachmodell analysiert diese Dokumente auf dem eigenen Server - keine Geschäftsgeheimnisse verlassen das Firmennetz. Die Low-Reasoning-Stufe reicht für Zusammenfassungen und Textklassifikation. Für die Extraktion komplexer technischer Spezifikationen liefert die High-Stufe präzisere Ergebnisse.
Code-Assistenz und Softwareentwicklung
Mit einem SWE-bench-Score von bis zu 62,4 Prozent liefert das Modell solide Leistung bei Programmieraufgaben (laut HuggingFace Evaluation). Entwicklungsteams können das Modell als internen Coding-Assistenten betreiben - vergleichbar mit GitHub Copilot, aber vollständig auf eigener Infrastruktur. OpenAI hat das Modell auch als Grundlage für Codex eingesetzt, das hauseigene Entwickler-Tool.
Fine-Tuning für Fachdomänen
Ein zentraler Vorteil offener Modelle: Sie lassen sich auf eigene Daten feinabstimmen. GPT-OSS-120B ist laut OpenAI auf einem einzelnen H100-Knoten fine-tuning-fähig. Für spezialisierte Anwendungen - etwa eine Rechtsabteilung, die Vertragsprüfungen automatisiert, oder ein Einkaufsteam, das Lieferantenbewertungen beschleunigt - macht das den Unterschied zwischen einem generischen Tool und einem maßgeschneiderten Assistenten. Wer den strategischen Rahmen für solche Projekte sucht, findet in unserem Überblick zu KI für Unternehmen die passenden Grundlagen.
GPT-OSS und der EU AI Act: Was gilt für offene Modelle?
Der EU AI Act ist seit August 2025 in Kraft und betrifft auch Open-Source-Modelle. Allerdings genießen quelloffene Modelle unter der Verordnung Privilegien: Sie fallen grundsätzlich nicht unter die Pflichten für Anbieter von KI-Systemen, solange sie nicht in Hochrisiko-Anwendungen eingesetzt werden. Das vereinfacht den Einsatz erheblich.
Trotzdem müssen Unternehmen ihre konkreten Anwendungsfälle prüfen. Wer das Modell für automatisierte Personalentscheidungen oder Kreditbewertungen einsetzt, fällt in die Hochrisiko-Kategorie - unabhängig davon, ob das zugrundeliegende Modell offen oder proprietär ist. Eine DSGVO-Konformitätsprüfung bleibt ebenfalls Pflicht, auch wenn die Daten das eigene Netzwerk nicht verlassen.
Der Vorteil beim Self-Hosting: Unternehmen behalten die volle Kontrolle über Datenflüsse, Protokollierung und Zugriffsrechte. Sie dokumentieren selbst, welche Daten verarbeitet werden und wo sie gespeichert sind. Das erleichtert den Nachweis gegenüber Aufsichtsbehörden erheblich. Wer ein Local LLM betreibt, hat bei Datenschutzfragen bessere Karten als bei Cloud-APIs - weil die Verantwortungskette kürzer und transparenter ist.
Was GPT-OSS für die KI-Strategie im Mittelstand bedeutet
Das offene Modell verändert die Ausgangslage für Unternehmen, die bisher zwischen teuren API-Diensten und weniger leistungsfähigen Open-Source-Alternativen wählen mussten. Ein Modell, das auf einer einzelnen GPU läuft, von OpenAI stammt und unter Apache 2.0 steht, macht den Einstieg in eigene KI-Infrastruktur deutlich realistischer.
Drei Empfehlungen für Entscheider:
- Starten Sie mit GPT-OSS-20B. Die kleinere Variante läuft auf bezahlbarer Hardware und zeigt schnell, ob das Modell für Ihre Anwendungsfälle taugt.
- Vergleichen Sie die Kosten. Rechnen Sie Ihre aktuellen API-Ausgaben gegen dedizierte GPU-Server. Ab einem bestimmten Nutzungsvolumen ist Self-Hosting günstiger.
- Prüfen Sie Ihre Compliance-Anforderungen. Gerade für Unternehmen mit sensiblen Daten oder strengen Datenschutzvorgaben bietet ein selbst gehostetes Modell klare Vorteile.
Der Open-Source-KI-Markt hat durch OpenAIs offenes Modell einen neuen Maßstab bekommen. Unternehmen, die sich jetzt mit dem Thema beschäftigen, verschaffen sich einen Vorsprung - nicht durch blindes Handeln, sondern durch fundierte Bewertung der eigenen Anforderungen und der verfügbaren Modelle.
Sie möchten GPT-OSS oder andere Open-Source-Modelle in Ihrem Unternehmen einsetzen? Sprechen Sie uns an - wir beraten Sie unverbindlich zu Modellauswahl, Infrastruktur und Datenschutz.
Häufige Fragen
Was bedeutet GPT-OSS?
GPT-OSS steht für "GPT Open Source Software". Es ist OpenAIs erstes Sprachmodell, das unter einer permissiven Open-Source-Lizenz (Apache 2.0) veröffentlicht wurde. Der Quellcode liegt auf GitHub, die Modellgewichte stehen auf HuggingFace zum Download bereit.
Ist GPT-OSS kostenlos?
Ja, GPT-OSS ist unter der Apache-2.0-Lizenz kostenlos nutzbar - auch für kommerzielle Zwecke. Kosten entstehen nur für die Hardware oder das Cloud-Hosting, auf dem das Modell betrieben wird.
Welche Modellgrößen gibt es bei GPT-OSS?
Es gibt zwei Varianten: GPT-OSS-120B mit 117 Milliarden Parametern (5,1 Milliarden aktiv) und GPT-OSS-20B mit 21 Milliarden Parametern (3,6 Milliarden aktiv). Beide nutzen eine Mixture-of-Experts-Architektur, die nur einen Bruchteil der Parameter pro Anfrage aktiviert.
Welche Hardware brauche ich für GPT-OSS?
GPT-OSS-120B läuft auf einer einzelnen GPU mit 80 GB Speicher, etwa einer NVIDIA H100 oder AMD MI300X. Die kleinere Variante GPT-OSS-20B benötigt nur 24 GB GPU-Speicher und läuft auf einer RTX 4090 oder A5000.
Wie unterscheidet sich GPT-OSS von ChatGPT?
ChatGPT ist ein Cloud-Dienst, bei dem alle Anfragen an OpenAIs Server gesendet werden. GPT-OSS ist ein offenes Modell, das Unternehmen auf eigener Hardware betreiben. Die Daten verlassen das eigene Netzwerk nicht. Zudem kann GPT-OSS frei angepasst und feinabgestimmt werden.
Kann ich GPT-OSS mit Ollama betreiben?
Ja, GPT-OSS ist in der Ollama-Bibliothek verfügbar. Die Installation und der Start erfolgen mit einem einzigen Befehl. Ollama ist der einfachste Weg, um GPT-OSS lokal zu testen, bevor ein produktives Setup mit vLLM oder Triton aufgebaut wird.
Ist GPT-OSS DSGVO-konform?
GPT-OSS selbst ist weder konform noch nicht konform - entscheidend ist, wie das Modell betrieben wird. Beim Self-Hosting auf eigenen Servern im DACH-Raum verlassen keine Daten das Firmennetzwerk, was die DSGVO-Konformität erheblich erleichtert. Eine Datenschutz-Folgenabschätzung bleibt trotzdem Pflicht.
Was sind die Reasoning-Stufen bei GPT-OSS?
GPT-OSS bietet drei konfigurierbare Reasoning-Stufen: Low, Medium und High. Die Low-Stufe eignet sich für einfache Aufgaben wie Zusammenfassungen und verbraucht weniger Rechenzeit. Die High-Stufe liefert bei komplexen Analysen und Programmieraufgaben deutlich bessere Ergebnisse, braucht aber mehr Inferenz-Zeit.
Kann ich GPT-OSS auf meine eigenen Daten trainieren?
Ja, GPT-OSS unterstützt Fine-Tuning. Laut OpenAI lässt sich das große 120B-Modell auf einem einzelnen H100-Knoten feinabstimmen. Damit können Unternehmen das Modell auf branchenspezifische Fachsprache, interne Prozesse oder besondere Dokumentenformate anpassen.
Wie schneidet GPT-OSS in Benchmarks ab?
GPT-OSS erreicht im GPQA-Diamond-Benchmark bis zu 80,9 Prozent (High Reasoning) und im SWE-bench für Programmieraufgaben bis zu 62,4 Prozent. Damit liegt es auf dem Niveau deutlich größerer proprietärer Modelle, benötigt aber nur einen Bruchteil der Rechenressourcen.
Sie möchten KI in Ihrem Unternehmen einsetzen? Sprechen Sie uns an - wir beraten Sie unverbindlich.