KI-Modell-Praxis — welche Modelle wir wofür einsetzen
Eine ehrliche Aufstellung der Modelle, die wir bei KaaTai-Beratung täglich nutzen. Mit konkreter Verteilung, Use-Case-Matrix und dem Routing-Pattern, das Cloud und lokale Inferenz pragmatisch kombiniert.
Kein Modell für alles
Es gibt nicht 'das beste Modell'. Es gibt Modelle, die für bestimmte Aufgaben pragmatischer sind als andere. Wir nutzen täglich vier Cloud-Anbieter (Claude, Perplexity, Gemini, OpenAI) plus lokale Open-Weight-Modelle via für mandanten- oder patient*innen-bezogene Inhalte. Die folgende Verteilung ist die Realität bei uns — Stand 2026-06-02. Verschiebt sich, sobald neue Modelle den jeweiligen Anwendungsfall besser bedienen.
Unsere Cloud-Verteilung
Diese vier Anbieter decken den allergrößten Teil unserer Cloud-KI-Arbeit ab. Prozente sind eine ehrliche Annäherung — Stand 2026-06-02, kann sich mit jedem Release neu sortieren.
Claude
Anthropic
Standardarbeitstier
Claude (insb. Opus 4.7 mit 1M Kontext) ist unser Hauptmodell für Text, Code, lange Dokumente, Strategie-Skizzen, Schriftsätze. Sehr gute Deutsch-Qualität, konsistente Antworten, sehr starkes . EU-Endpunkt bei Anthropic verfügbar.
- Modelle
- Opus 4.7 (1M ctx) · Sonnet 4.6 · Haiku
- Lizenz
- SaaS, EU-Endpunkt verfügbar
Perplexity
Perplexity AI
Web-Recherche mit Quellen
Perplexity ist RAG-First — Web-Suche kombiniert mit LLM-Antwort und Quellen-Verweisen. Pflicht für Recherche-Aufgaben: BAFA-Förderlogik aktuell, Wettbewerbs-Analyse, Branchen-Updates. Comet-Browser-Agent für autonome Recherche.
- Modelle
- Pro Search · Deep Research · Comet
- Lizenz
- SaaS, RAG-First-Plattform
Gemini
Google DeepMind
Sehr lange Kontexte + Multimodal
Gemini (Pro/Ultra) bringt 1M+ Token Kontext und sehr starkes Multimodal (Bilder, Video, Audio). Wir nutzen es für Aufgaben, bei denen sehr große Dokumenten-Sammlungen am Stück verarbeitet werden müssen oder Bild-Verständnis im Vordergrund steht.
- Modelle
- Gemini 3 Pro · Gemini 3 Ultra · Flash
- Lizenz
- SaaS, Google Cloud + Vertex AI
OpenAI
OpenAI
Spezialaufgaben + Open-Weight
OpenAI (GPT-5/o3) für Aufgaben, bei denen die Funktion-Calling-Tiefe stark ist (z. B. Code-Interpreter, DALL-E-Bilder). Plus: GPT-oss als Open-Weight-Variante für lokale Inferenz. Anteil ist klein, weil andere Anbieter für unsere meist die Nase vorn haben.
- Modelle
- GPT-5 · GPT-5.5 · o3-pro · GPT-oss
- Lizenz
- SaaS + Open-Weight (gpt-oss)
Use-Case-Matrix — welches Modell wofür
Acht typische aus unserer Beratungs-Praxis. Pro die konkrete Modell-Empfehlung — Cloud und lokal getrennt, weil sensible Inhalte nicht in eine Cloud dürfen.
Texte, Übersetzungen, Schriftsätze
Code, Refactoring, Code-Review
Web-Recherche mit Quellen
RAG (eigene Dokumente)
Reasoning, Logik, Mathematik
Multimodal (Bilder, Whiteboard, PDFs)
Lange Dokumente (>100 Seiten)
Agenten-Workflows (autonom)
Das Routing-Pattern
Wir kombinieren Cloud und lokale Inferenz nicht zufällig — sondern nach einer klaren Regel, die jeder Mitarbeitende ohne Nachdenken anwenden kann.
Regel 1 — Mandanten-/Patient*innen-Daten = immer lokal
Regel 2 — Eigene Code-Basis = lokal, Open-Source-Code = Cloud OK
Regel 3 — Allgemeine Recherche + Texte = Cloud OK
Regel 4 — Multi-Endpoint-Frontend für die Mitarbeitenden
Open WebUI Multi-Endpoint-Konfiguration
# Open WebUI Connections (Settings → Admin → Connections)
# Lokale Ollama-Instanz (default)
OLLAMA_BASE_URL=http://ollama:11434
# Anthropic (Claude — Standard 80%)
ANTHROPIC_API_BASE=https://api.anthropic.com
ANTHROPIC_API_KEY=sk-ant-...
ANTHROPIC_MODELS=claude-opus-4-7,claude-sonnet-4-6,claude-haiku-4-5
# Perplexity (Recherche — 10%)
PERPLEXITY_API_BASE=https://api.perplexity.ai
PERPLEXITY_API_KEY=pplx-...
PERPLEXITY_MODELS=sonar-pro,sonar-reasoning-pro
# Google Gemini (Multimodal + lange Kontexte — 5%)
GOOGLE_API_BASE=https://generativelanguage.googleapis.com
GOOGLE_API_KEY=AIza...
GOOGLE_MODELS=gemini-3-pro,gemini-3-ultra,gemini-flash
# OpenAI (Spezialaufgaben + GPT-oss — 5%)
OPENAI_API_BASE=https://api.openai.com/v1
OPENAI_API_KEY=sk-...
OPENAI_MODELS=gpt-5,gpt-5.5,o3-pro
# Workspaces mit vorausgewaehltem Modell pro Use-Case:
# - Workspace 'Mandanten' → Default: llama3.3:70b (lokal)
# - Workspace 'Marketing' → Default: claude-opus-4-7 (Cloud)
# - Workspace 'Recherche' → Default: sonar-pro (Perplexity)
# - Workspace 'Vision' → Default: gemini-3-pro (Cloud)Ehrliche Hinweise
Diese Verteilung ist die unsere — Stand 2026-06-02. Sie ist kein Heilsversprechen, sondern Ergebnis eigener Praxis. Andere Beratungen routen anders: viele OpenAI-First (weil ChatGPT-Marke), manche Gemini-First (weil Google Workspace). Wir sind bei Claude gelandet, weil Anthropic in den letzten 18 Monaten konsistent die qualitativ besten Modelle für unsere geliefert hat — kann sich morgen ändern.
Auch ehrlich: Lokale Modelle sind in absoluter Top-Qualität noch nicht ganz bei Frontier-Cloud. Llama 3.3 70B ist sehr gut, aber Claude Opus 4.7 ist messbar besser bei komplexen Aufgaben. Der Trade-off ist Datenhoheit — und der ist bei sensiblen Inhalten alternativlos.
Verwandte Themen
Modelle brauchen Infrastruktur und Routing-Frontend
Der KI-Modell-Zoo zeigt das Modell-Universum, ist der lokale Inference-Server, ist das Multi-Endpoint-Frontend, der DSGVO-Server-Bauplan ist die Plattform darunter:
Bereit für den nächsten Schritt?
Kostenloses Erstgespräch. Unverbindlich. In 30 Minuten wissen Sie, ob und wie KI Ihrem Unternehmen helfen kann.