Wie ein mittelständischer Handwerksbetrieb mit zehn Arbeitsplätzen seine drei KI-relevanten Rollen ausstatten kann — Geschäftsführung, Bauleitung, Innendienst. Drei Rollen, drei Konfigurationen, eine zusammenhängende Architektur.
Vor jeder KI-Architektur steht eine Bestandsaufnahme. Ein Elektrobetrieb mit zehn Mitarbeitenden — typische Aufteilung: ein Inhaber als Meister, zwei Bauleiter oder Projektleiter, ein bis zwei Bürokräfte im Innendienst, fünf Monteure auf Baustellen, gegebenenfalls ein Auszubildender. Drei dieser Rollen profitieren direkt von KI-Werkzeugen — mit sehr unterschiedlichen Anforderungen.
Was wir hier zeigen, ist kein Bericht über einen konkreten Kunden, sondern ein Modellbeispiel: So sähe eine saubere Konfiguration in einem Betrieb mit dieser Größe und diesem Profil aus. Der naheliegende Reflex „eine Pro-Lizenz für alle" verbrennt sowohl Geld als auch — und deckt trotzdem nicht die richtigen Anwendungsfälle ab.
Bestandsaufnahme — was heute schon läuft
Bevor irgendetwas konfiguriert wird, wird erhoben, was im Betrieb bereits da ist — Software, Daten, inoffizielle Tools, Compliance-Pflichten:
Inoffizielle Schatten-KI — fast immer nutzen einzelne Mitarbeitende schon ChatGPT, Gemini oder ähnliches privat. Erste Frage: was läuft heute schon über welche Konten?
Daten-Inventar — welche personenbezogenen Daten fallen wo an (Kunden, Mitarbeitende, Lieferanten)? Welche sind besonders sensibel?
Vorlagen-Berge — Standardangebote, Wartungsbestätigungen, Störungs-Berichte, Anschluss-Protokolle. Genau diese Wiederholungen sind das RAG-Potenzial — und gleichzeitig das, was den Innendienst täglich Stunden kostet
Compliance-Pflichten — DSGVO, branchenspezifische Vorgaben (TREMOD/Energie-Effizienz bei größeren Anlagen), seit Februar 2026 zusätzlich AI Literacy nach Art. 4 AI Act
Aus dieser Erhebung ergeben sich die Rollen, die brauchen — und die, die noch keine brauchen. Die fünf Monteure auf Baustellen zum Beispiel haben kein eigenes KI-Werkzeug, sondern senden Sprachnotizen und Fotos an die Bauleitungs-App; die dortigen Workflows machen daraus Mängelberichte und Materiallisten.
Drei Rollen, drei Konfigurationen
Jede Rolle bekommt das Tool, das zu ihrem Volumen, ihrer Datensensitivität und ihrer Mobilität passt — nicht das, was gerade hyped ist.
Rolle 1
Inhaber / Geschäftsführung
Aufgaben
Strategie, Großangebote, Kundenkommunikation, Berichte für Banken und Kammer
Volumen
Wenige, dafür hochwertige Anfragen — geschätzt 5–15 längere Sessions pro Woche
Datensensitivität
Mittel — Strategieskizzen, Kalkulations-Eckwerte, Texte; selten Personenbezug im Detail
Tool-Mix
Frontier-Modell (Claude oder GPT der jeweils aktuellen Generation) im Browser oder Mobile-App, betrieben über einen Anbieter mit AVV und EU-Region
Kein eigenes RAG-System — Kontext wird per Datei-Upload oder Copy-Paste mitgegeben (Angebotsentwürfe, Kammerschreiben, Banken-Templates)
Eingebettet in den Mail-Workflow für Diktate, Antwort-Entwürfe und Übersetzungen
Warum diese Wahl
Qualität schlägt Aufwand. sind bei strategischen Texten, Kalkulationsschätzungen und Berichts-Formulierungen den lokalen Modellen klar überlegen. Das niedrige Volumen rechtfertigt die Cloud-Kosten leicht — eine eigene Pro-Lizenz oder ein API-Account reicht aus.
Frontier-Modell über AVV-Cloud für Mobile/Tablet — schnelle Antworten unterwegs, Kunden-Mail-Entwürfe
Eigene RAG-Wissensbasis (z. B. Obsidian als Quelle, lokales Embedding via Ollama, Vektorspeicher ChromaDB, Hybrid-Suche mit BM25+RRF-Fusion): VDE-Normen, eigene Standardklauseln, Anschluss-Schaltbilder, Lieferanten-Datenblätter — abfragbar per natürlicher Sprache
OCR für Lieferscheine und handschriftliche Notizen, eingebunden in n8n-Workflows
MCP-Tools mit Lesezugriff auf die Branchen-Software (Auftragsstatus, Materialbestand) — keine Schreibrechte ohne menschliche Freigabe
Warum diese Wahl
Datenfluss aufgeteilt nach Sensitivität. Texte für Kunden und allgemeine Recherchen gehen in die Cloud (Qualität wichtig, kein Personenbezug im Volltext). Branchen-Wissen bleibt lokal — Normen sind zwar öffentlich, aber die Anschlussbilder, Lieferantenpreise und Standardklauseln sind interne Assets, die nicht in fremde Trainingsdaten gehören.
Rolle 3
Büro / Innendienst
Aufgaben
Angebote und Rechnungen schreiben, Termine planen, Wartungsverträge pflegen, Störungstelefon, eingehende E-Mails klassifizieren und intern routen
Volumen
Kontinuierliche Bearbeitung — höchstes Vorgangsvolumen im Betrieb, geschätzt 150–250 Mail- und Belegvorgänge pro Woche
Datensensitivität
Sehr hoch — Kundenstammdaten, Verträge, Forderungen, Wartungshistorien
Tool-Mix
Open WebUI Self-Hosted mit RBAC pro Mitarbeitender und vollständigem Audit-Log
Lokales Sprachmodell (z. B. Ollama mit Gemma 4 / 26B) für deutsche Standard-Geschäftspost
n8n-Workflows für wiederkehrende Vorgänge: Belegerfassung (OCR → Buchhaltungs-Export), Mahnwesen-Trigger, E-Mail-Klassifikation und Routing (Reklamation / Anfrage / Störung)
RAG-System mit Wartungsverträgen, Kundenakten und Historien-Notizen — Innendienst kann per natürlicher Sprache prüfen, was zuletzt mit welchem Kunden geschah
Komplette Abschirmung: kein Token, keine Datei verlässt den Self-Hosted-Server; keine Cloud-API in der Pipeline
Warum diese Wahl
Hier laufen die meisten datensensitiven Vorgänge — Kundenstammdaten, Verträge, Mahnwesen. nicht aus Ideologie, sondern weil diese Daten weder durch eine US-Cloud noch durch ein Modelltraining gehören. Bonus: das Volumen würde Pro-Sitz-Lizenzen ohnehin schnell teurer machen als ein einmaliges Setup mit + + auf einem mittelgroßen Server.
Architektur-Klammer — wer redet mit wem
Drei Rollen heißt nicht drei isolierte Inseln. Das verbindende Element ist eine sauber aufgetrennte Datenflussarchitektur: Cloud für das, was öffentlich oder anonymisiert bearbeitet werden darf, für alles mit Personenbezug oder Geschäftsgeheimnis.
Cloud (mit AVV)
Frontier-Modell, EU-Region
Genutzt von Geschäftsführung (Strategie, Berichte) und Bauleitung (Mobile Mail-Entwürfe, allgemeine Recherche). Personenbezogene Daten werden vor der Eingabe anonymisiert oder nicht in den Prompt gegeben.
Self-Hosted (Server in DE)
Open WebUI + Ollama + n8n + RAG
Innendienst-Workflows, mit Branchen-Wissen, OCR-Pipeline, Workflow-Engine. Kann sowohl auf einem mittelgroßen in Deutschland laufen als auch im eigenen Serverraum, je nach Präferenz.
Branchen-Software
ERP / Buchhaltung / Auftragsverwaltung
Bleibt, wo sie ist. Anbindung erfolgt über oder MCP-Tools mit minimal-nötigen Lese-/Schreibrechten — keine Replikation in eine andere Datenbank.
Mobile Endgeräte
App + VPN zum Self-Hosted-Backend
Monteure und Bauleitung nutzen vor Ort die Foto-/Sprach-App, die per VPN auf den Self-Hosted-Server zugreift und je nach zusätzlich die Cloud konsultiert.
Welche lokalen Modelle in Frage kommen
Für den Innendienst werden mehrere Open-Source-Modelle gegen die typischen Aufgaben getestet — deutsche Geschäftspost, Klassifikation eingehender Mails, einfache Anweisungen für . Aktuelle Erkenntnisse aus solchen Vergleichen (Stand 2026):
Modell
Einschätzung
Begründung
Gemma 4 (Google)
Gewinner für deutsche Standardtexte
Sauberer deutscher Output, stabiles JSON für n8n-Pipelines, gutes Markdown
Llama (Meta)
Verworfen
Tokenleaks — Steuerzeichen im Output, die in den Workflows wegen Idempotenz-Pflicht weggefiltert werden müssten
Qwen (Alibaba)
Verworfen
Ähnliches Problem mit Control-Tokens, dazu schwächer für deutsche Geschäftspost
Mistral
Solide, aber schwächer
Gute Allgemein-Qualität, deutsche Geschäftspost klingt jedoch hölzern; geeignet als Backup-Modell
Wichtig: lokale Modelle liegen qualitativ deutlich unter Frontier-Cloud-Modellen. Sie passen für klar abgegrenzte Aufgaben (Klassifikation, deutsche Standardpost, Belegextraktion). Sie sind kein Ersatz für Claude oder GPT, wenn es um anspruchsvolle Texte oder komplexes Reasoning geht — sondern der Hebel für und Kostenkontrolle bei wiederkehrenden Routinen.
Was bewusst NICHT lokal läuft
Rechts- und Norm-Recherche mit Quellenangabe
Lokale Modelle halluzinieren bei Paragraphen und Datums-Angaben. Statt eines Modells lieber Perplexity, eine Such-API oder direkt die VDE-Datenbank.
Strategische oder werbliche Texte mit hohem Qualitätsanspruch
Frontier-Cloud-Modelle liefern bei diesen Aufgaben deutlich bessere Ergebnisse — und das niedrige Volumen rechtfertigt die Kosten.
Code für eigene Skript- oder Workflow-Anpassungen
Claude oder GPT in den jeweiligen Coding-Varianten — lokal mit ist die Codequalität zu schwach für produktive Änderungen.
Profiling von Mitarbeitenden oder Kunden
Grundsätzlich keine Bewertungsaufgaben durch ein Sprachmodell — Art. 22 ist hier sehr restriktiv, und der lohnt sich in dieser Betriebsgröße nicht.
Compliance-Klammer
Drei Konfigurationen heißt drei Datenflü — und jeder muss dokumentiert und compliant sein. Was im Modellbeispiel mitläuft:
DSGVO
mit Cloud-Anbietern (EU-Region), Schrems-II-Prüfung dokumentiert, festgehalten
VVZ
Verzeichnis der Verarbeitungstätigkeiten umfasst sowohl die Cloud-Strecken (GF, Bauleitung) als auch die Self-Hosted-Pipeline (Innendienst, )
AI Act Art. 4
AI-Literacy-Schulung für alle Mitarbeitenden, jährlich aktualisiert, im Onboarding integriert
Datentopf-Trennung
Dokumentiert, welche Datentöpfe lokal bleiben und welche in welche Cloud gehen — inklusive Eskalationspfad bei neuen Anwendungsfällen
Was nach dem Setup läuft
Ein KI-Setup ist kein Projektabschluss, sondern ein laufender Betrieb. Drei Dinge gehören dauerhaft dazu:
Observability
Workflow-Telemetrie über n8n-Executions, Telegram-Alert bei Fehlern, über alle KI-Zugriffe
Update-Disziplin
Halbjährliche Modell-Reviews, Prompts werden in einer geteilten kuratiert, neue Mitarbeitende werden im Onboarding mit KI-Tools vertraut gemacht
Skalierung
Weitere Workflows (Foto-OCR für Stromzähler, Schaltschrank-Doku, Wartungs-Reports) lassen sich in derselben Architektur ergänzen — ohne erneutes Setup
Bereit für den nächsten Schritt?
Kostenloses Erstgespräch. Unverbindlich. In 30 Minuten wissen Sie, ob und wie KI Ihrem Unternehmen helfen kann.