KI-Modell-Zoo — Open-Weight-Modelle für lokale Inferenz
Die wichtigsten Open-Weight-Modelle im Juni 2026. Welches Modell passt zu welchem , welche Hardware-Anforderung steht dahinter, welche Lizenz ist im Spiel. Aktualisiert mit jedem neuen Release.
Modelle via Ollama pullen
# Allzweck-Hero, läuft auf Apple Silicon M4 Ultra (192 GB) oder NVIDIA mit 48+ GB VRAM
ollama pull llama3.3:70b
# Multilingual exzellent (insb. Deutsch), passt auf RTX 5090 (32 GB)
ollama pull qwen2.5:32b
# Mixture-of-Experts, sehr stark fürs Geld an Tokens
ollama pull mixtral:8x7b
# Reasoning-Spezialist (Distill-Variante für realistische Hardware)
ollama pull deepseek-r1:32b
# Klein und stark, auf einer einzelnen RTX 4090 (24 GB) machbar
ollama pull phi4:14b
ollama pull gemma3:27b
# OpenAIs Open-Weight-Modell (released Aug 2025), für 20B Q4 ca. 12 GB VRAM
ollama pull gpt-oss:20b
Jedes der gelisteten Modelle ist mit einem Befehl verfügbar. Die Größen-Variante (z. B. ':70b' vs. ':8b') passt das Modell an die verfügbare Hardware an. Quelle: ollama.com/library.
Sieben Modelle im Vergleich
Jedes Modell hat eigene Stärken — Größe, Lizenz, Kontext-Länge, . Hier die kompakte Übersicht, klickbar auf die offizielle Modell-Seite des Anbieters.
Llama 3.3
Meta
Allzweck
Meta-Flaggschiff
Allzweck-Hero von Meta. Sehr ausgewogen bei Textgenerierung, Wissensaufgaben, Mehrsprachigkeit. Llama 3.3 Community License erlaubt kommerzielle Nutzung für .
Mistral 7B als kompaktes Modell, Mixtral 8x7B/8x22B als Mixture-of-Experts mit sehr starkem Performance/VRAM-Verhältnis. Alle Apache-2.0 — voll kommerziell nutzbar.
Alibaba-Modell mit ausgezeichneter Deutsch-Qualität, auch bei kleineren Größen. Verschiedene Varianten von 0.5B bis 72B. Apache-2.0 — auch für DSGVO-sensible unproblematisch.
3 mit Größen von 1B bis 27B — sehr effizient für seine Größenklasse. License (ähnlich Llama: kommerzielle Nutzung möglich, einige Compliance-Auflagen).
DeepSeek R1 setzt Maßstäbe in logischem Reasoning und Mathematik. Volle Version 671B nur auf Enterprise-Hardware, Distill-Varianten 7B/14B/32B/70B auf KMU-Hardware nutzbar. MIT-Lizenz.
Phi 4 mit nur 14B Parametern zeigt: gut kuratierte Trainingsdaten schlagen schiere Größe. Sehr gute Performance auf einer RTX 4090. MIT-Lizenz, kommerziell uneingeschränkt nutzbar.
Im August 2025 veröffentlichte OpenAI gpt-oss in zwei Größen (20B und 120B) unter Apache-2.0. Aus Sicht der Modell-Qualität deutlich besser als ältere OSS-Modelle, mit voller kommerzieller Freigabe.
Ein Open-Weight-Modell ist ein , dessen trainierte Gewichte (die Parameter-Datei) öffentlich verfügbar sind — typisch als Download auf HuggingFace, auf der Anbieter-Webseite oder über . Das unterscheidet sie von ChatGPT, Claude oder Gemini Pro, deren Gewichte nicht herausgegeben werden und die ausschließlich über APIs zugreifbar sind.
Wichtig: 'Open Weight' ist nicht dasselbe wie 'Open Source'. Die Lizenz-Schwankung ist hier sehr groß — von echtem MIT/Apache-2.0 (Mistral, Qwen, Phi, GPT-oss) über Custom-Lizenzen mit Branding-Klauseln (Llama, ) bis hin zu eingeschränkten 'Research Only'-Lizenzen. Für kommerzielle KMU-Nutzung ist jede Lizenz vorher zu prüfen — Footnote pro Modell in der jeweiligen Karte.
Welches Modell wofür?
Empfehlungen aus eigener Praxis bei Mandanten. Nicht 'das beste Modell' — es gibt kein bestes. Sondern 'für diesen passt dieses Modell am pragmatischsten'.
Allzweck im Mittelstand (Texte, Übersetzungen, Q&A)
<b>Llama 3.3 70B</b> oder <b>Qwen 2.5 32B</b>. Llama 70B braucht 48 GB VRAM (Mac Studio M4 Ultra, RTX 5090+RTX 4090), Qwen 32B läuft auf einer RTX 4090. Beide sehr gut auf Deutsch.
Programmierung & Code-Vervollständigung
<b>Qwen 2.5 Coder 32B</b> ist der pragmatische Standard für Coding. Plus <b>DeepSeek R1 Distill 32B</b> für komplexere Refactoring-Aufgaben. Beide in IDE-Plugins (Continue, Cody) einsetzbar.
Reasoning, Logik, Mathematik
<b>DeepSeek R1</b> ist hier deutlich vor allen anderen. Die Distill-Varianten (32B und 70B) bringen einen großen Teil der Reasoning-Stärke auf KMU-Hardware. Volle 671B-Version nur auf Enterprise-Hardware.
Klein und schnell (Edge, Mobile, Embedded)
<b>Phi 4 14B</b>, <b> 3 9B</b> oder <b>Llama 3.2 3B</b>. Alle laufen auf einer einzelnen Consumer-GPU oder sogar leistungsfähigen CPUs. Für eingebettete KI-Funktionen in Apps.
Multilingual mit DSGVO-Bonus
<b>Qwen 2.5 32B</b> für Mehrsprachigkeit (auch ungewöhnliche Sprachen) plus Apache-2.0-Lizenz. <b>Mistral Large 2</b> als europäische Alternative (Mistral sitzt in Paris, EU-Hosting).
Wenn niemand mehr OpenAI-Cloud darf
<b>GPT-oss 120B</b> seit August 2025 als kommerziell freier OpenAI-Open-Weight-Ersatz. Apache-2.0. Für Compliance-strikte Branchen, die ChatGPT-Qualität wollen, aber nicht in die OpenAI-Cloud dürfen.
Was haben alle Open-Weight-Modelle gemeinsam?
Sechs Eigenschaften, die diese sieben Modelle zu einer eigenen Klasse machen — und sie von Cloud-Frontier-Modellen unterscheiden.
Lokale Inferenz
Modell läuft auf eigener Hardware (Mac, Workstation, Server). Keine Anfrage verlässt das Netzwerk. Pflicht bei Branchen mit Verschwiegenheits- oder DSGVO-Auflagen — Anwälte, Ärzte, Steuerberater, Ingenieure mit IP-Schutz.
Quantisierung verfügbar
Pro Modell stehen Quantisierungen (Q4_K_M, Q5_K_M, Q8_0) bereit, die RAM/VRAM-Bedarf um Faktor 2–4 reduzieren — mit gerade noch akzeptablem Qualitätsverlust. Q4_K_M ist Standard für Self-Hosting.
OpenAI-API-kompatibel
Über , vLLM oder llama.cpp werden alle diese Modelle hinter einer OpenAI-kompatiblen ausgeliefert. Bestehende OpenAI-Client-Bibliotheken (Python-SDK, n8n-Nodes) funktionieren ohne Code-Änderung.
Multi-Modal optional
Mehrere der Modelle (Llama 3.2 Vision, Qwen 2.5 VL, 3 vision) akzeptieren Bilder. Anwendung: gescannte Rechnungen analysieren, Bauteil-Fotos für Reklamationen interpretieren, Whiteboard-Skizzen verarbeiten.
Fine-Tuning möglich
Mit eigenen Daten (Glossar, Stilrichtlinien, Domain-Wissen) lassen sich die Modelle nachtrainieren — meist via LoRA/QLoRA für moderate Hardware-Anforderungen. Domänen-spezifische Stärken ohne komplettes Pre-Training.
Kein Vendor-Lock-in
Modell-Wechsel ohne Code-Änderung: Ollama-Tag austauschen, OpenAI-API-Endpoint bleibt gleich. Wer heute Llama 3.3 nutzt, kann morgen auf Qwen 3 oder GPT-oss-200B wechseln — innerhalb des Open-Weight-Ökosystems.
OpenAI-kompatibler API-Call gegen ein lokales Modell
# Modell auswählen (variable)
MODEL="llama3.3:70b"
# Alternative: qwen2.5:32b · mixtral:8x7b · deepseek-r1:32b · gpt-oss:20b
# OpenAI-kompatibler Chat-Completion-Call
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "'$MODEL'",
"messages": [
{"role": "system", "content": "Du bist eine pragmatische KI-Beraterin für KMU."},
{"role": "user", "content": "Welches Modell empfiehlst du für eine 8-Personen-Anwaltskanzlei mit RTX 4090?"}
],
"temperature": 0.2
}'
# Die gleiche Anfrage funktioniert auch mit dem OpenAI Python-SDK,
# einfach OPENAI_API_BASE auf http://localhost:11434/v1 setzen.
Ein einziger curl-Aufruf gegen die lokale Ollama-API. Modell-Name als Variable — austauschbar zwischen allen sieben Modellen. Quelle: Eigene Praxis.
Cloud-Alternativen ehrlich verglichen
Wenn Open-Weight nicht reicht — was sonst?
Drei Cloud-Frontier-Modelle, die in absoluter Qualität oft noch vorne sind. Trade-off: Datenfluss und Per-Token-Kosten gegen Top-Qualität.
Frontier Cloud (USA)
ChatGPT (GPT-5)
OpenAI
+ Bester Allzweck-Frontier-Anbieter
+ Tools, Function-Calling, Vision sehr ausgereift
− US-Cloud, kein Self-Hosting
− Datenfluss auch mit Enterprise-AVV
Frontier Cloud (USA/EU)
Claude (Anthropic)
Anthropic
+ Sehr stark bei langen Texten
+ EU-Endpunkte verfügbar
− Ebenfalls keine Self-Hosting-Option
− Per-Token-Kosten schnell hoch bei Volumen
Frontier Cloud (USA)
Gemini Pro
Google
+ Sehr lange Kontext-Fenster (1M+ Token)
+ Multi-Modal stark
− Google-Cloud, US-Datenort
− Datenpolitik weniger transparent als OpenAI/Anthropic
Faustregel: Wer DSGVO-Pflichten hat oder IP schützt — Open-Weight lokal. Wer maximale Qualität bei unkritischen Inhalten will — Cloud-Frontier. Wer beides braucht — Multi-Routing in (sensible Inhalte lokal, allgemeine Recherche Cloud).
Pricing
Hardware-Investition vs. Per-Token-Kosten.
Lizenz
Mix aus Apache-2.0 (Mistral, Qwen, Phi, GPT-oss), MIT (DeepSeek), Custom Community Licenses (Llama, Gemma). Für KMU-Eigenbetrieb in fast allen Konstellationen unproblematisch — pro Modell auf Modell-Karte verifizieren.
Hardware-Kosten
Mid-Range (für Modelle bis 32B): RTX 4090 24GB + 32GB RAM Workstation, ca. 3.000 €. Premium (für 70B+): Apple Mac Studio M4 Ultra 192 GB ab 8.000 € oder NVIDIA-Server mit RTX 5090. Strom: 150–300 W bei Inferenz, idle <50 W.
vs. Cloud-API
Cloud-Kosten skalieren linear mit Volumen. Bei 1.000 Token/Tag pro 10 Mitarbeitenden: GPT-5 ca. 60 €/Monat, Claude Sonnet ähnlich. Self-Hosted: Hardware-Amortisation in 12–18 Monaten. Ab 50+ Mitarbeitenden klar günstiger.
Wichtig: Quantisierungs-Qualität ist nicht linear. Q4_K_M ist Standard und 'gut genug' für 95 % der . Q5/Q6 für höhere Ansprüche. Volle FP16 nur bei Forschung. Wer mit weniger VRAM auskommt, sollte zuerst Quantisierung prüfen, bevor ein kleineres Modell gewählt wird.
Verwandte Themen
Modelle brauchen Inference-Server und Frontend
Modelle alleine sind nutzlos. lädt sie, bietet die Bedien-Oberfläche, ki-server-eigene-infra ist die Lösung dahinter: