Lösung im Detail

KI-Modell-Praxis — welche Modelle wir wofür einsetzen

Eine ehrliche Aufstellung der Modelle, die wir bei KaaTai-Beratung täglich nutzen. Mit konkreter Verteilung, Use-Case-Matrix und dem Routing-Pattern, das Cloud und lokale Inferenz pragmatisch kombiniert.

Kein Modell für alles

Es gibt nicht 'das beste Modell'. Es gibt Modelle, die für bestimmte Aufgaben pragmatischer sind als andere. Wir nutzen täglich vier Cloud-Anbieter (Claude, Perplexity, Gemini, OpenAI) plus lokale Open-Weight-Modelle via für mandanten- oder patient*innen-bezogene Inhalte. Die folgende Verteilung ist die Realität bei uns — Stand 2026-06-02. Verschiebt sich, sobald neue Modelle den jeweiligen Anwendungsfall besser bedienen.

Unsere Cloud-Verteilung

Diese vier Anbieter decken den allergrößten Teil unserer Cloud-KI-Arbeit ab. Prozente sind eine ehrliche Annäherung — Stand 2026-06-02, kann sich mit jedem Release neu sortieren.

Claude80%

Perplexity10%

Gemini5%

OpenAI5%

Claude

Anthropic

80%

Standardarbeitstier

Claude (insb. Opus 4.7 mit 1M Kontext) ist unser Hauptmodell für Text, Code, lange Dokumente, Strategie-Skizzen, Schriftsätze. Sehr gute Deutsch-Qualität, konsistente Antworten, sehr starkes . EU-Endpunkt bei Anthropic verfügbar.

Modelle: Opus 4.7 (1M ctx) · Sonnet 4.6 · Haiku
Lizenz: SaaS, EU-Endpunkt verfügbar

Perplexity

Perplexity AI

10%

Web-Recherche mit Quellen

Perplexity ist RAG-First — Web-Suche kombiniert mit LLM-Antwort und Quellen-Verweisen. Pflicht für Recherche-Aufgaben: BAFA-Förderlogik aktuell, Wettbewerbs-Analyse, Branchen-Updates. Comet-Browser-Agent für autonome Recherche.

Modelle: Pro Search · Deep Research · Comet
Lizenz: SaaS, RAG-First-Plattform

Gemini

Google DeepMind

Sehr lange Kontexte + Multimodal

Gemini (Pro/Ultra) bringt 1M+ Token Kontext und sehr starkes Multimodal (Bilder, Video, Audio). Wir nutzen es für Aufgaben, bei denen sehr große Dokumenten-Sammlungen am Stück verarbeitet werden müssen oder Bild-Verständnis im Vordergrund steht.

Modelle: Gemini 3 Pro · Gemini 3 Ultra · Flash
Lizenz: SaaS, Google Cloud + Vertex AI

OpenAI

Spezialaufgaben + Open-Weight

OpenAI (GPT-5/o3) für Aufgaben, bei denen die Funktion-Calling-Tiefe stark ist (z. B. Code-Interpreter, DALL-E-Bilder). Plus: GPT-oss als Open-Weight-Variante für lokale Inferenz. Anteil ist klein, weil andere Anbieter für unsere meist die Nase vorn haben.

Modelle: GPT-5 · GPT-5.5 · o3-pro · GPT-oss
Lizenz: SaaS + Open-Weight (gpt-oss)

Use-Case-Matrix — welches Modell wofür

Acht typische aus unserer Beratungs-Praxis. Pro die konkrete Modell-Empfehlung — Cloud und lokal getrennt, weil sensible Inhalte nicht in eine Cloud dürfen.

Texte, Übersetzungen, Schriftsätze

Cloud: Claude Opus (lange Texte, Hauskonvention) oder Sonnet (schneller). Lokal: Llama 3.3 70B oder Qwen 2.5 32B. Routing: Mandantenbezogene Texte lokal, allgemeine Marketing-Texte Cloud.

Code, Refactoring, Code-Review

Cloud: Claude Opus (sehr stark beim Refactoring) oder GPT-5 (besser bei Function-Calling). Lokal: Qwen 2.5 Coder 32B + DeepSeek R1 Distill für komplexe Logik. Routing: Open-Source-Code Cloud OK, Kunden-Code lokal.

Web-Recherche mit Quellen

Cloud: Perplexity Pro Search oder Deep Research. Lokal: mit SearXNG-Anbindung (selbst-gehostete Suche) + Llama 3.3. Routing: Allgemeine Recherche Cloud, Wettbewerbs-Recherche lokal.

RAG (eigene Dokumente)

Cloud: Claude Projects oder Gemini (1M Kontext). Lokal: Knowledge-Bases + Llama 3.3 oder Qwen. Routing: Mandanten-Dokumente IMMER lokal. Branchen-Studien Cloud OK.

Reasoning, Logik, Mathematik

Cloud: Claude Opus 4.7 oder GPT-5 o3-pro. Lokal: DeepSeek R1 Distill 32B oder 70B. Routing: Bei komplexen Berechnungen mit sensiblen Zahlen lokal, allgemeine Analyse-Fragen Cloud.

Multimodal (Bilder, Whiteboard, PDFs)

Cloud: Gemini 3 Pro/Ultra (sehr stark) oder Claude (auch gut). Lokal: Qwen 2.5 VL oder Llama 3.2 Vision. Routing: Mandanten-Whiteboards/Scans lokal, Stock-Bilder-Analyse Cloud.

Lange Dokumente (>100 Seiten)

Cloud: Claude Opus (1M Kontext), Gemini Ultra (2M Kontext). Lokal: Llama 3.3 70B mit 128k Kontext. Routing: Bei sehr großen PDFs ist Cloud oft praktisch, bei sensiblen Daten lokal mit Chunking.

Agenten-Workflows (autonom)

Cloud: Claude (sehr stark bei ), GPT-5 (gut). Perplexity Comet für Browser-Agenten. Lokal: noch limitiert — autonome Agenten brauchen meist Frontier-Qualität. Routing: bei Agenten-Tasks meist Cloud.

Das Routing-Pattern

Wir kombinieren Cloud und lokale Inferenz nicht zufällig — sondern nach einer klaren Regel, die jeder Mitarbeitende ohne Nachdenken anwenden kann.

Regel 1 — Mandanten-/Patient*innen-Daten = immer lokal

Alles, was Mandanten, Patient*innen oder Personen identifiziert (Namen, Adressen, konkrete Aktenzeichen, Sitzungs-Notizen, Patientendaten), läuft IMMER über die lokale Ollama-Instanz mit Llama 3.3 oder Qwen 2.5. Keine Ausnahme, kein 'nur kurz hochladen'.

Regel 2 — Eigene Code-Basis = lokal, Open-Source-Code = Cloud OK

Kundenprojekt-Code oder eigene IP-relevante Code-Basen → lokales Qwen 2.5 Coder. Open-Source-Bibliotheken, Demo-Code, allgemeine Code-Fragen → Claude/GPT-5. Kein eigener Code wandert in Cloud-Prompts.

Regel 3 — Allgemeine Recherche + Texte = Cloud OK

Marketing-Texte, allgemeine Branchen-Recherchen, BAFA-Updates, Schulungs-Material: Claude (Standard) oder Perplexity (mit Quellen). Hier ist Datenfluss unproblematisch, Qualität schlägt Hoheit.

Regel 4 — Multi-Endpoint-Frontend für die Mitarbeitenden

verbindet alle vier Cloud-Anbieter plus lokale Ollama-Instanz. Mitarbeitende wählen je Aufgabe das passende Modell aus einem Dropdown — Routing nicht im Kopf, sondern im UI.

Open WebUI Multi-Endpoint-Konfiguration

# Open WebUI Connections (Settings → Admin → Connections)

# Lokale Ollama-Instanz (default)
OLLAMA_BASE_URL=http://ollama:11434

# Anthropic (Claude — Standard 80%)
ANTHROPIC_API_BASE=https://api.anthropic.com
ANTHROPIC_API_KEY=sk-ant-...
ANTHROPIC_MODELS=claude-opus-4-7,claude-sonnet-4-6,claude-haiku-4-5

# Perplexity (Recherche — 10%)
PERPLEXITY_API_BASE=https://api.perplexity.ai
PERPLEXITY_API_KEY=pplx-...
PERPLEXITY_MODELS=sonar-pro,sonar-reasoning-pro

# Google Gemini (Multimodal + lange Kontexte — 5%)
GOOGLE_API_BASE=https://generativelanguage.googleapis.com
GOOGLE_API_KEY=AIza...
GOOGLE_MODELS=gemini-3-pro,gemini-3-ultra,gemini-flash

# OpenAI (Spezialaufgaben + GPT-oss — 5%)
OPENAI_API_BASE=https://api.openai.com/v1
OPENAI_API_KEY=sk-...
OPENAI_MODELS=gpt-5,gpt-5.5,o3-pro

# Workspaces mit vorausgewaehltem Modell pro Use-Case:
#   - Workspace 'Mandanten'   → Default: llama3.3:70b (lokal)
#   - Workspace 'Marketing'   → Default: claude-opus-4-7 (Cloud)
#   - Workspace 'Recherche'   → Default: sonar-pro (Perplexity)
#   - Workspace 'Vision'      → Default: gemini-3-pro (Cloud)

Open WebUI verbindet alle vier Cloud-Anbieter plus lokale Ollama-Instanz. Mitarbeitende sehen alle Modelle in einem Dropdown und wählen je Use-Case. Quelle: docs.openwebui.com, BSD-3 + Branding.

Ehrliche Hinweise

Diese Verteilung ist die unsere — Stand 2026-06-02. Sie ist kein Heilsversprechen, sondern Ergebnis eigener Praxis. Andere Beratungen routen anders: viele OpenAI-First (weil ChatGPT-Marke), manche Gemini-First (weil Google Workspace). Wir sind bei Claude gelandet, weil Anthropic in den letzten 18 Monaten konsistent die qualitativ besten Modelle für unsere geliefert hat — kann sich morgen ändern.

Auch ehrlich: Lokale Modelle sind in absoluter Top-Qualität noch nicht ganz bei Frontier-Cloud. Llama 3.3 70B ist sehr gut, aber Claude Opus 4.7 ist messbar besser bei komplexen Aufgaben. Der Trade-off ist Datenhoheit — und der ist bei sensiblen Inhalten alternativlos.

Verwandte Themen

Modelle brauchen Infrastruktur und Routing-Frontend

Der KI-Modell-Zoo zeigt das Modell-Universum, ist der lokale Inference-Server, ist das Multi-Endpoint-Frontend, der DSGVO-Server-Bauplan ist die Plattform darunter:

→ KI-Modell-Zoo (Open-Weight-Übersicht)→ Open WebUI (Routing-Frontend)→ DSGVO-Server-Bauplan

Bereit für den nächsten Schritt?

Kostenloses Erstgespräch. Unverbindlich. In 30 Minuten wissen Sie, ob und wie KI Ihrem Unternehmen helfen kann.

Erstgespräch buchen Förderfähigkeit prüfen