Lösung — Autonom

Eigener KI-Server & RAG-Wissensbasis

Wir bauen Ihren Self-Hosted-Stack auf, schulen Ihr Team und übergeben — drei Setup-Stufen vom schlanken bis zur On-Premise-Hardware. Mit ehrlicher Einordnung, wo Self-Hosting lohnt und wo der Hybrid-Ansatz mit Frontier-Cloud die bessere Wahl ist.

Ein eigener KI-Server lohnt sich nicht für jeden Use Case. Für gelegentliche Anfragen ist die Cloud-API meist günstiger und qualitativ besser. Self-Hosting wird interessant, wenn drei Bedingungen zusammenkommen: regelmäßige Nutzung mit nennenswertem Volumen, datensensible Vorgänge ohne Erlaubnis zur Drittland-Übermittlung, und der Wille, langfristig die Hoheit über Modelle, Daten und Kosten zu behalten.

Wichtig vorneweg: lokale Open-Source-Modelle liegen qualitativ unter dem jeweils aktuellen Frontier-Cloud-Modell. Für deutsche Standardpost, Klassifikation und RAG-Befragung ist das ausreichend, für komplexes Reasoning und mehrsprachige Strategie-Texte oft nicht. Der saubere Weg ist daher häufig ein Hybrid-Setup: Self-Hosted für datensensible Routinen, Frontier-Cloud (mit AVV und EU-Region) für die anspruchsvolle Strategie-Schicht.

Drei Setup-Stufen — vom schlanken VPS für erste Schritte bis zur On-Premise-Hardware für strikt regulierte Branchen — und Sie können mit der Stufe starten, die heute passt, ohne den Aufbau später wegwerfen zu müssen.

Drei Setup-Stufen

Welche Stufe passt, hängt von Nutzervolumen, Latenz-Anforderung und Compliance-Pflichten ab. Beim Wechsel von Stufe zu Stufe bleibt der Software-Stack identisch — nur die Hardware skaliert mit.

Stufe 1

Starter — VPS mit CPU-only

Tool-Mix

Mittelgroßer VPS bei einem deutschen Anbieter (z. B. netcup, Hetzner), 16–32 GB RAM, NVMe-SSD, ohne GPU
Ollama mit kleineren Modellen (Gemma 4 in 4B–9B, Phi-4, Llama-3 8B) — CPU-Inferenz, langsamer, aber funktional
Open WebUI als Multi-User-Frontend, lokale Embeddings via Ollama, ChromaDB als Vektorspeicher
n8n für Workflows, Authentik oder Keycloak für Login
Optional ein einfacher RAG-Index auf eigenen Markdown-Dokumenten

Eignung

Kleine Teams (2–10 Nutzer), wenige parallele Anfragen, Use Cases mit deutscher Standardpost und klassischer RAG-Befragung. Erste Schritte ins Self-Hosting, bevor in GPU investiert wird.

Aufwand & Kosten

Setup 3–6 Tage. Laufende Kosten ca. 30–80 € / Monat (VPS-Miete + Backups). Modelle und Software sind Open Source.

Tradeoff

CPU-Inferenz ist deutlich langsamer als GPU — die Antwort auf eine kurze Frage dauert oft 10–30 Sekunden statt 1–3. Für Echtzeit-Anwendungen wie Live-Chat zu langsam, für asynchrone Workflows (Beleg-Klassifikation, Batch-Auswertung) sehr brauchbar.

Stufe 2

Professional — Server mit GPU

Tool-Mix

Dedizierter Server in einem deutschen Rechenzentrum mit einer Consumer- oder Workstation-GPU (z. B. RTX 4090, RTX 6000 Ada) — oder gemieteter GPU-Cloud-Server (Hetzner, OVH) bei eindeutiger DSGVO-Zusicherung
Ollama oder vLLM für Inferenz, mittelgroße Modelle (Llama-3 70B quantisiert, Gemma 2 27B, Qwen 32B, Mistral Large) mit Antwortzeiten unter 5 Sekunden
Vollständige RAG-Pipeline: Ollama-Embeddings, ChromaDB oder pgvector, optional Wissensgraph (KuzuDB) für Relationen, Hybrid Retrieval mit RRF-Fusion
Open WebUI mit RBAC und Audit-Log, n8n-Workflows, Authentik / Keycloak
Monitoring-Stack mit Grafana und Prometheus, Telegram- oder Slack-Alerts

Eignung

Aktive Nutzung in einem Team von 10–50 Personen, Echtzeit-Anwendungsfälle (Chat, schneller RAG), spezifische Wissensdomänen mit größerem Korpus.

Aufwand & Kosten

Setup 6–12 Tage. Laufende Kosten ca. 150–500 € / Monat (Hardware-Miete + Strom + Backups), je nach GPU-Klasse und Anbieter.

Tradeoff

Auch ein 70B-Modell mit guter Quantisierung liegt qualitativ unter dem jeweils aktuellen Frontier-Cloud-Modell. Für Standard-Aufgaben (Geschäftspost, Klassifikation, RAG-Antworten) reicht es; für anspruchsvolle Strategie-Texte oder komplexes Reasoning bleibt Cloud-Frontier die bessere Wahl — daher oft als Hybrid-Setup sinnvoll.

Stufe 3

On-Premise — Hardware im eigenen Serverraum

Tool-Mix

Hardware nach Bedarf: GPU-Workstation (z. B. mit RTX 6000 Ada), Tower- oder Rack-Server mit ECC-RAM, redundante NVMe-Storage
Stufe 2 in vollem Umfang, plus eigene physische Kontrolle: keine Cloud-Anbindung pflichtig, Netz-Trennung möglich (Air-Gapped-Setup)
Erweiterte Monitoring-Tools (Netdata, Prometheus, Loki) und Disaster-Recovery-Konzept (Offsite-Backup, Hardware-Redundanz)
Optionale Finetuning-Pipeline mit LoRA oder QLoRA auf eigener Hardware — möglich, aber nur bei klarem Use Case wirtschaftlich sinnvoll

Eignung

Branchen mit harten Datenschutz- oder Sicherheits-Anforderungen (regulierte Märkte, Forschung, Verteidigung, Behörden), Betriebe mit eigenem IT-Team und vorhandener Serverraum-Infrastruktur, Anforderung an Air-Gapped-Betrieb.

Aufwand & Kosten

Hardware-Investition typisch 8.000–25.000 € einmalig (je nach GPU-Klasse und Redundanz). Setup 10–20 Tage. Laufende Kosten v. a. Strom, Wartung, Backups — meist 50–150 € / Monat.

Tradeoff

Volle Datenkontrolle und keine wiederkehrenden Hosting-Gebühren, aber dafür komplette Operations-Verantwortung im Haus: Hardware-Defekte, Stromausfälle, Backup-Wiederherstellung, Kühlung. Ohne eigenes IT-Team oder externen Dienstleister nicht zu betreiben.

Was auf dem Server läuft

Der Software-Stack ist über alle drei Stufen hinweg derselbe — Open Source, Docker-basiert, austauschbar. Neun Bausteine, jeder mit klarer Funktion:

Inferenz-Engine

Ollama für einfache Setups, vLLM für höhere Last und Concurrency. Beide Open Source, beide Self-Hosted. Welche der beiden besser passt, hängt von Modellgröße und Anfragezahl ab.

Sprachmodelle

Gemma 4 (Google), Llama 3/4 (Meta), Qwen (Alibaba), Mistral. Lizenzen prüfen — die meisten erlauben kommerzielle Nutzung, einige mit Einschränkungen ab gewisser Nutzerzahl.

Embedding-Modell

Lokales Embedding für Vektor-Repräsentation, z. B. qwen3-embedding (1.024 Dim.) oder BGE-M3. Wichtig: deutsches Material braucht ein deutsch-trainiertes oder mehrsprachiges Modell, sonst leidet der Recall.

Vektorspeicher

ChromaDB für einfache Setups (Docker-native), pgvector für PostgreSQL-Integration, Qdrant für höhere Last und Filter-Komplexität. Auswahl nach Datenmenge und Abfrage-Pattern.

Wissensgraph (optional)

KuzuDB als embedded Graph-DB für Abhängigkeits- und Relations-Fragen. Sinnvoll, wenn nicht nur Text gesucht wird, sondern auch „was hängt mit was zusammen“.

RAG-Pipeline

Chunking, Embedding, Retrieval mit Hybrid-Strategie (Vektor + BM25, RRF-Fusion), Reranking, Prompt-Komposition. Die meiste Arbeit liegt nicht im Modell, sondern in der Pipeline-Qualität.

Frontend

Open WebUI für Multi-User-Chat mit RBAC und Audit-Log, eigene Web-Apps für Spezial-Anwendungen, n8n für Workflow-Integration.

Authentifizierung

Keycloak oder Authentik für Single-Sign-On, Active-Directory-Integration und 2FA. Wichtig: KI-Zugriff folgt dem gleichen Berechtigungsmodell wie andere Unternehmens-Tools.

Monitoring & Backup

Grafana für Dashboards, Prometheus für Metriken, Uptime Kuma für externe Verfügbarkeit. Backup-Strategie: täglich automatisch, offsite-Kopie, regelmäßige Restore-Tests.

Wo sich Self-Hosting konkret lohnt

Sechs Branchen-Profile, in denen ein eigener KI-Server typischerweise die richtige Wahl ist — entweder wegen Datenschutz, wegen Volumen oder wegen Compliance-Pflichten:

Kanzleien & Steuerberater

Gesetze, Urteile, Mandanten-Korrespondenz im RAG-System. Datenschutz-strikt, keine US-Cloud. Ergänzt die juristische Recherche und beschleunigt Standardanfragen — ersetzt aber nicht die fachliche Bewertung.

Heilberufe & Praxen

Patientenakten und Behandlungsleitlinien dürfen die Praxis nicht verlassen. Self-Hosted ermöglicht KI-gestützte Recherche und Dokumentations-Hilfe ohne Datenschutzkonflikt.

Handwerks- und Technikbetriebe

Hunderte Datenblätter, Hersteller-Anleitungen, VDE-Normen und eigene Standards in einem System, das vom Monteur auf der Baustelle abgefragt werden kann.

Interne Wissensdatenbank

Handbücher, SOPs, Schulungsunterlagen, E-Mail-Archive — alles durchsuchbar in natürlicher Sprache. Neue Mitarbeitende finden Antworten in Sekunden, Wissenstransfer beim Mitarbeiter-Wechsel wird einfacher.

Versicherungs- und Finanzdienstleister

Tarifwerke, Bedingungen, Schadensprozesse als RAG-Wissensbasis — interne Anfragen werden konsistent beantwortet. Mit MaRisk- und Compliance-Anforderungen im Blick.

Behörden und öffentlicher Sektor

Hohe Anforderungen an Datenhoheit, oft Air-Gapped. On-Premise-Setups mit lokalen Modellen und sauberem Audit-Trail erfüllen typische Compliance-Vorgaben.

Was wir vermitteln

Damit Sie den Server selbst betreiben können, sechs Kompetenzbereiche, die wir in Workshop und Pilot-Begleitung aufbauen:

Modell-Auswahl

Welches Open-Source-Modell passt zu welchem Use Case (Größe, Qualität, RAM-Bedarf, Lizenz). Wann lohnt sich Quantisierung, wann ein größeres Modell mit weniger Tokens pro Sekunde.

RAG-Tuning

Chunking-Strategie, Embedding-Wahl, Hybrid-Retrieval, Reranking — und wie man Recall@5 gegen ein Golden-Query-Set misst, statt sich auf Bauchgefühl zu verlassen.

Workflow-Verständnis

Wie ein n8n-Workflow zu lesen, anzupassen und zu debuggen ist. Wo Trigger sitzen, wo Fehler entstehen, wo Retry und Dead-Letter-Queue greifen.

Sicherheit & Zugriff

RBAC pro Rolle und Abteilung, Audit-Log für Compliance, VPN-Zugang für Admin-Schnittstellen, 2FA für alle Zugriffe.

Monitoring & Backups

Welche Metriken überwacht werden, wie Alerts sinnvoll konfiguriert sind, wie Backup-Restores regelmäßig getestet werden — nicht erst, wenn der Server brennt.

Update-Disziplin

Modell-Updates kontrolliert einspielen, Security-Patches zeitnah, eine Test-Umgebung für größere Änderungen. KI-Stack ist Software-Stack — gleiche Pflege-Pflichten.

Was automatisiert wird

Sechs Routine-Schritte, die im laufenden Betrieb von Workflows übernommen werden — damit der Server stabil läuft, ohne dass jemand täglich hinschaut:

Datensynchronisation in den RAG-Index

Neue oder geänderte Dokumente werden über n8n-Workflows automatisch re-embedded und in den Vektorspeicher übernommen.

Modell- und Container-Updates

Automatisierte Update-Routinen ziehen neue Modelle oder Container-Images, prüfen Health-Checks und schalten erst nach erfolgreichem Smoke-Test produktiv.

Health-Checks & Alerts

Erreichbarkeit der Dienste, Antwortzeiten, GPU-Auslastung, Disk-Füllstand werden kontinuierlich überwacht — Telegram- oder Slack-Alert bei Auffälligkeiten.

Backup-Routinen

Datenbanken, Vektorspeicher, Konfigurationen, eigene Modelle werden täglich automatisch gesichert, offsite-Kopie verschlüsselt abgelegt, monatlicher Restore-Test.

Audit-Logging

Wer hat wann welchen Prompt geschickt, welche Daten abgerufen, welches Tool aufgerufen — vollständig protokolliert und für Compliance-Audits exportierbar.

Capacity-Tracking

Tokens pro Tag, Anfragen pro Stunde, Kosten-Indikatoren (Strom, GPU-Auslastung) als Dashboard, damit Skalierungs-Entscheidungen auf Daten basieren.

Was bewusst MANUELL bleibt

Self-Hosting heißt Eigenverantwortung. Diese sechs Disziplinen gehören in menschliche Hände — Workflow-Automation ersetzt sie nicht:

Strategische Modell-Entscheidungen

Welche Modelle Sie einsetzen, welche Lizenz Sie akzeptieren, welche Tradeoffs Sie machen (Qualität vs. Geschwindigkeit vs. Datenkontrolle) — das ist Geschäfts-Entscheidung, nicht Workflow.

Wahl der Daten im RAG-Index

Welche Dokumente in den Index dürfen, welche nicht, welche freigegeben werden müssen — eine menschliche Entscheidung mit Datenschutz- und Vertraulichkeits-Kontext.

Qualitäts-Bewertung der Antworten

Stichproben prüfen, Halluzinationen erkennen, Modell- oder Pipeline-Tuning ableiten — Beobachtung, die nicht automatisierbar ist, weil sie inhaltlichen Kontext braucht.

Disaster-Recovery-Übungen

Quartalsweise tatsächlich einen Backup-Restore durchspielen, Failover testen, Notfall-Pfade dokumentieren. Routine, die ohne menschliche Disziplin nicht passiert.

Sicherheits-Audits

Zugriffsrechte regelmäßig prüfen, ausgeschiedene Mitarbeitende entfernen, Penetration-Test bei größeren Setups — keine Aufgabe für einen Workflow.

Skalierungs-Entscheidungen

Wann wird die Hardware zu klein, wann lohnt sich der Wechsel auf eine größere GPU oder ein Hybrid-Setup mit Cloud-Frontier — Daten liefert das Monitoring, entscheiden müssen Sie.

Wie der Übergang in den Selbstbetrieb läuft

Vom Anforderungs-Workshop bis zum vollen Selbstbetrieb in der Regel 8–14 Wochen, abhängig von Stufe und Datenmenge im RAG-Index:

Anforderungs-Workshop

Welche Use Cases sollen abgedeckt werden, welches Volumen ist zu erwarten, welche Daten dürfen in den RAG-Index, welche Branchen-Compliance gilt?

Setup-Stufe wählen

Starter, Professional oder On-Premise — Empfehlung mit Begründung anhand Use Cases, Budget und vorhandenem IT-Wissen im Team.

Hardware und Hosting konfigurieren

VPS-Anbieter wählen oder Hardware bestellen, Netzwerk und Zugriffsstrukturen aufsetzen, VPN- und SSO-Anbindung vorbereiten.

Stack aufbauen

Inferenz-Engine, Modelle, Embedding, Vektorspeicher, RAG-Pipeline, Frontend, n8n-Workflows, Auth und Monitoring — als Docker-Stack reproduzierbar.

RAG-Daten kuratieren und indexieren

Erste Datenquellen einsammeln, Chunking-Strategie testen, Golden-Query-Set definieren, gegen das später jede Pipeline-Änderung gemessen wird.

Schulung & Übergabe

1–2-tägiger Workshop mit IT- und Fachverantwortlichen: Architektur verstehen, Workflows lesen und anpassen, RAG-Daten pflegen, Monitoring nutzen.

Begleiteter Pilot-Monat

Wöchentliche Sparring-Sessions, RAG-Qualität messen, Prompts kuratieren, erste Edge-Cases dokumentieren. Sie betreiben, wir greifen nur ein, wenn nötig.

Selbstbetrieb mit Wartungs-Disziplin

Ab dann gehört das Setup Ihnen. Optional: vierteljährliche Auffrischer bei Modell-Wechsel, neuen Komponenten oder Compliance-Updates.

Aufwand und Investition hängen von der gewählten Stufe und dem Begleitungs-Umfang ab — eine konkrete Einschätzung gibt es nach dem Anforderungs-Workshop und im Rahmen der Preisübersicht.

Bereit für den nächsten Schritt?

Kostenloses Erstgespräch. Unverbindlich. In 30 Minuten wissen Sie, ob und wie KI Ihrem Unternehmen helfen kann.

Erstgespräch buchen Förderfähigkeit prüfen