Erstgespräch buchen
Modell-Zoo · Stand 2026-06

KI-Modell-Zoo — Open-Weight-Modelle für lokale Inferenz

Die wichtigsten Open-Weight-Modelle im Juni 2026. Welches Modell passt zu welchem , welche Hardware-Anforderung steht dahinter, welche Lizenz ist im Spiel. Aktualisiert mit jedem neuen Release.

Modelle via Ollama pullen

# Allzweck-Hero, läuft auf Apple Silicon M4 Ultra (192 GB) oder NVIDIA mit 48+ GB VRAM
ollama pull llama3.3:70b

# Multilingual exzellent (insb. Deutsch), passt auf RTX 5090 (32 GB)
ollama pull qwen2.5:32b

# Mixture-of-Experts, sehr stark fürs Geld an Tokens
ollama pull mixtral:8x7b

# Reasoning-Spezialist (Distill-Variante für realistische Hardware)
ollama pull deepseek-r1:32b

# Klein und stark, auf einer einzelnen RTX 4090 (24 GB) machbar
ollama pull phi4:14b
ollama pull gemma3:27b

# OpenAIs Open-Weight-Modell (released Aug 2025), für 20B Q4 ca. 12 GB VRAM
ollama pull gpt-oss:20b
Jedes der gelisteten Modelle ist mit einem Befehl verfügbar. Die Größen-Variante (z. B. ':70b' vs. ':8b') passt das Modell an die verfügbare Hardware an. Quelle: ollama.com/library.

Sieben Modelle im Vergleich

Jedes Modell hat eigene Stärken — Größe, Lizenz, Kontext-Länge, . Hier die kompakte Übersicht, klickbar auf die offizielle Modell-Seite des Anbieters.

Llama 3.3

Meta

Allzweck

Meta-Flaggschiff

Allzweck-Hero von Meta. Sehr ausgewogen bei Textgenerierung, Wissensaufgaben, Mehrsprachigkeit. Llama 3.3 Community License erlaubt kommerzielle Nutzung für .

Größen
70B · 8B · 1B
Context
128k
VRAM Q4
~48 GB (70B Q4)
Lizenz
Llama 3.3 Lic.

ollama pull llama3.3:70b

Mistral / Mixtral

Mistral AI

Mixture-of-Experts

Französisches Powerhouse

Mistral 7B als kompaktes Modell, Mixtral 8x7B/8x22B als Mixture-of-Experts mit sehr starkem Performance/VRAM-Verhältnis. Alle Apache-2.0 — voll kommerziell nutzbar.

Größen
7B · 8x7B · 8x22B
Context
64k
VRAM Q4
~28 GB (8x7B Q4)
Lizenz
Apache-2.0

ollama pull mixtral:8x7b

Qwen 2.5

Alibaba

Mehrsprachig

Multilingual-Spezialist

Alibaba-Modell mit ausgezeichneter Deutsch-Qualität, auch bei kleineren Größen. Verschiedene Varianten von 0.5B bis 72B. Apache-2.0 — auch für DSGVO-sensible unproblematisch.

Größen
0.5B · 7B · 14B · 32B · 72B
Context
128k
VRAM Q4
~20 GB (32B Q4)
Lizenz
Apache-2.0

ollama pull qwen2.5:32b

Gemma 3

Google

Klein & effizient

Google-Klein-Modell

3 mit Größen von 1B bis 27B — sehr effizient für seine Größenklasse. License (ähnlich Llama: kommerzielle Nutzung möglich, einige Compliance-Auflagen).

Größen
1B · 4B · 12B · 27B
Context
128k
VRAM Q4
~16 GB (27B Q4)
Lizenz
Gemma Lic.

ollama pull gemma3:27b

DeepSeek R1

DeepSeek

Logik & Reasoning

Reasoning-Spezialist

DeepSeek R1 setzt Maßstäbe in logischem Reasoning und Mathematik. Volle Version 671B nur auf Enterprise-Hardware, Distill-Varianten 7B/14B/32B/70B auf KMU-Hardware nutzbar. MIT-Lizenz.

Größen
671B + Distill 7B/14B/32B/70B
Context
128k
VRAM Q4
~20 GB (Distill-32B Q4)
Lizenz
MIT

ollama pull deepseek-r1:32b

Phi 4

Microsoft

Klein & effizient

Microsoft-Klein-Champion

Phi 4 mit nur 14B Parametern zeigt: gut kuratierte Trainingsdaten schlagen schiere Größe. Sehr gute Performance auf einer RTX 4090. MIT-Lizenz, kommerziell uneingeschränkt nutzbar.

Größen
14B · 3.8B (mini)
Context
16k
VRAM Q4
~9 GB (14B Q4)
Lizenz
MIT

ollama pull phi4:14b

GPT-oss

OpenAI

Allzweck

OpenAIs Open-Weight-Modell

Im August 2025 veröffentlichte OpenAI gpt-oss in zwei Größen (20B und 120B) unter Apache-2.0. Aus Sicht der Modell-Qualität deutlich besser als ältere OSS-Modelle, mit voller kommerzieller Freigabe.

Größen
20B · 120B
Context
128k
VRAM Q4
~12 GB (20B Q4)
Lizenz
Apache-2.0

ollama pull gpt-oss:20b

Was sind Open-Weight-Modelle?

Ein Open-Weight-Modell ist ein , dessen trainierte Gewichte (die Parameter-Datei) öffentlich verfügbar sind — typisch als Download auf HuggingFace, auf der Anbieter-Webseite oder über . Das unterscheidet sie von ChatGPT, Claude oder Gemini Pro, deren Gewichte nicht herausgegeben werden und die ausschließlich über APIs zugreifbar sind.

Wichtig: 'Open Weight' ist nicht dasselbe wie 'Open Source'. Die Lizenz-Schwankung ist hier sehr groß — von echtem MIT/Apache-2.0 (Mistral, Qwen, Phi, GPT-oss) über Custom-Lizenzen mit Branding-Klauseln (Llama, ) bis hin zu eingeschränkten 'Research Only'-Lizenzen. Für kommerzielle KMU-Nutzung ist jede Lizenz vorher zu prüfen — Footnote pro Modell in der jeweiligen Karte.

Welches Modell wofür?

Empfehlungen aus eigener Praxis bei Mandanten. Nicht 'das beste Modell' — es gibt kein bestes. Sondern 'für diesen passt dieses Modell am pragmatischsten'.

Allzweck im Mittelstand (Texte, Übersetzungen, Q&A)

<b>Llama 3.3 70B</b> oder <b>Qwen 2.5 32B</b>. Llama 70B braucht 48 GB VRAM (Mac Studio M4 Ultra, RTX 5090+RTX 4090), Qwen 32B läuft auf einer RTX 4090. Beide sehr gut auf Deutsch.

Programmierung & Code-Vervollständigung

<b>Qwen 2.5 Coder 32B</b> ist der pragmatische Standard für Coding. Plus <b>DeepSeek R1 Distill 32B</b> für komplexere Refactoring-Aufgaben. Beide in IDE-Plugins (Continue, Cody) einsetzbar.

Reasoning, Logik, Mathematik

<b>DeepSeek R1</b> ist hier deutlich vor allen anderen. Die Distill-Varianten (32B und 70B) bringen einen großen Teil der Reasoning-Stärke auf KMU-Hardware. Volle 671B-Version nur auf Enterprise-Hardware.

Klein und schnell (Edge, Mobile, Embedded)

<b>Phi 4 14B</b>, <b> 3 9B</b> oder <b>Llama 3.2 3B</b>. Alle laufen auf einer einzelnen Consumer-GPU oder sogar leistungsfähigen CPUs. Für eingebettete KI-Funktionen in Apps.

Multilingual mit DSGVO-Bonus

<b>Qwen 2.5 32B</b> für Mehrsprachigkeit (auch ungewöhnliche Sprachen) plus Apache-2.0-Lizenz. <b>Mistral Large 2</b> als europäische Alternative (Mistral sitzt in Paris, EU-Hosting).

Wenn niemand mehr OpenAI-Cloud darf

<b>GPT-oss 120B</b> seit August 2025 als kommerziell freier OpenAI-Open-Weight-Ersatz. Apache-2.0. Für Compliance-strikte Branchen, die ChatGPT-Qualität wollen, aber nicht in die OpenAI-Cloud dürfen.

Was haben alle Open-Weight-Modelle gemeinsam?

Sechs Eigenschaften, die diese sieben Modelle zu einer eigenen Klasse machen — und sie von Cloud-Frontier-Modellen unterscheiden.

Lokale Inferenz

Modell läuft auf eigener Hardware (Mac, Workstation, Server). Keine Anfrage verlässt das Netzwerk. Pflicht bei Branchen mit Verschwiegenheits- oder DSGVO-Auflagen — Anwälte, Ärzte, Steuerberater, Ingenieure mit IP-Schutz.

Quantisierung verfügbar

Pro Modell stehen Quantisierungen (Q4_K_M, Q5_K_M, Q8_0) bereit, die RAM/VRAM-Bedarf um Faktor 2–4 reduzieren — mit gerade noch akzeptablem Qualitätsverlust. Q4_K_M ist Standard für Self-Hosting.

OpenAI-API-kompatibel

Über , vLLM oder llama.cpp werden alle diese Modelle hinter einer OpenAI-kompatiblen ausgeliefert. Bestehende OpenAI-Client-Bibliotheken (Python-SDK, n8n-Nodes) funktionieren ohne Code-Änderung.

Multi-Modal optional

Mehrere der Modelle (Llama 3.2 Vision, Qwen 2.5 VL, 3 vision) akzeptieren Bilder. Anwendung: gescannte Rechnungen analysieren, Bauteil-Fotos für Reklamationen interpretieren, Whiteboard-Skizzen verarbeiten.

Fine-Tuning möglich

Mit eigenen Daten (Glossar, Stilrichtlinien, Domain-Wissen) lassen sich die Modelle nachtrainieren — meist via LoRA/QLoRA für moderate Hardware-Anforderungen. Domänen-spezifische Stärken ohne komplettes Pre-Training.

Kein Vendor-Lock-in

Modell-Wechsel ohne Code-Änderung: Ollama-Tag austauschen, OpenAI-API-Endpoint bleibt gleich. Wer heute Llama 3.3 nutzt, kann morgen auf Qwen 3 oder GPT-oss-200B wechseln — innerhalb des Open-Weight-Ökosystems.

OpenAI-kompatibler API-Call gegen ein lokales Modell

# Modell auswählen (variable)
MODEL="llama3.3:70b"
# Alternative: qwen2.5:32b · mixtral:8x7b · deepseek-r1:32b · gpt-oss:20b

# OpenAI-kompatibler Chat-Completion-Call
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "'$MODEL'",
    "messages": [
      {"role": "system", "content": "Du bist eine pragmatische KI-Beraterin für KMU."},
      {"role": "user", "content": "Welches Modell empfiehlst du für eine 8-Personen-Anwaltskanzlei mit RTX 4090?"}
    ],
    "temperature": 0.2
  }'

# Die gleiche Anfrage funktioniert auch mit dem OpenAI Python-SDK,
# einfach OPENAI_API_BASE auf http://localhost:11434/v1 setzen.
Ein einziger curl-Aufruf gegen die lokale Ollama-API. Modell-Name als Variable — austauschbar zwischen allen sieben Modellen. Quelle: Eigene Praxis.

Cloud-Alternativen ehrlich verglichen

Wenn Open-Weight nicht reicht — was sonst?

Drei Cloud-Frontier-Modelle, die in absoluter Qualität oft noch vorne sind. Trade-off: Datenfluss und Per-Token-Kosten gegen Top-Qualität.

Frontier Cloud (USA)

ChatGPT (GPT-5)

OpenAI

  • + Bester Allzweck-Frontier-Anbieter
  • + Tools, Function-Calling, Vision sehr ausgereift
  • − US-Cloud, kein Self-Hosting
  • − Datenfluss auch mit Enterprise-AVV

Frontier Cloud (USA/EU)

Claude (Anthropic)

Anthropic

  • + Sehr stark bei langen Texten
  • + EU-Endpunkte verfügbar
  • − Ebenfalls keine Self-Hosting-Option
  • − Per-Token-Kosten schnell hoch bei Volumen

Frontier Cloud (USA)

Gemini Pro

Google

  • + Sehr lange Kontext-Fenster (1M+ Token)
  • + Multi-Modal stark
  • − Google-Cloud, US-Datenort
  • − Datenpolitik weniger transparent als OpenAI/Anthropic

Faustregel: Wer DSGVO-Pflichten hat oder IP schützt — Open-Weight lokal. Wer maximale Qualität bei unkritischen Inhalten will — Cloud-Frontier. Wer beides braucht — Multi-Routing in (sensible Inhalte lokal, allgemeine Recherche Cloud).

Pricing

Hardware-Investition vs. Per-Token-Kosten.

Lizenz

Mix aus Apache-2.0 (Mistral, Qwen, Phi, GPT-oss), MIT (DeepSeek), Custom Community Licenses (Llama, Gemma). Für KMU-Eigenbetrieb in fast allen Konstellationen unproblematisch — pro Modell auf Modell-Karte verifizieren.

Hardware-Kosten

Mid-Range (für Modelle bis 32B): RTX 4090 24GB + 32GB RAM Workstation, ca. 3.000 €. Premium (für 70B+): Apple Mac Studio M4 Ultra 192 GB ab 8.000 € oder NVIDIA-Server mit RTX 5090. Strom: 150–300 W bei Inferenz, idle <50 W.

vs. Cloud-API

Cloud-Kosten skalieren linear mit Volumen. Bei 1.000 Token/Tag pro 10 Mitarbeitenden: GPT-5 ca. 60 €/Monat, Claude Sonnet ähnlich. Self-Hosted: Hardware-Amortisation in 12–18 Monaten. Ab 50+ Mitarbeitenden klar günstiger.

Wichtig: Quantisierungs-Qualität ist nicht linear. Q4_K_M ist Standard und 'gut genug' für 95 % der . Q5/Q6 für höhere Ansprüche. Volle FP16 nur bei Forschung. Wer mit weniger VRAM auskommt, sollte zuerst Quantisierung prüfen, bevor ein kleineres Modell gewählt wird.

Verwandte Themen

Modelle brauchen Inference-Server und Frontend

Modelle alleine sind nutzlos. lädt sie, bietet die Bedien-Oberfläche, ki-server-eigene-infra ist die Lösung dahinter:

Bereit für den nächsten Schritt?

Kostenloses Erstgespräch. Unverbindlich. In 30 Minuten wissen Sie, ob und wie KI Ihrem Unternehmen helfen kann.

Erstgespräch buchenBAFA-Förderung