Erstgespräch buchen
Lösung — Autonom

Eigener KI-Server & RAG-Wissensbasis

Wir bauen Ihren Self-Hosted-Stack auf, schulen Ihr Team und übergeben — drei Setup-Stufen vom schlanken bis zur On-Premise-Hardware. Mit ehrlicher Einordnung, wo Self-Hosting lohnt und wo der Hybrid-Ansatz mit Frontier-Cloud die bessere Wahl ist.

Ein eigener KI-Server lohnt sich nicht für jeden Use Case. Für gelegentliche Anfragen ist die Cloud-API meist günstiger und qualitativ besser. Self-Hosting wird interessant, wenn drei Bedingungen zusammenkommen: regelmäßige Nutzung mit nennenswertem Volumen, datensensible Vorgänge ohne Erlaubnis zur Drittland-Übermittlung, und der Wille, langfristig die Hoheit über Modelle, Daten und Kosten zu behalten.

Wichtig vorneweg: lokale Open-Source-Modelle liegen qualitativ unter dem jeweils aktuellen Frontier-Cloud-Modell. Für deutsche Standardpost, Klassifikation und RAG-Befragung ist das ausreichend, für komplexes Reasoning und mehrsprachige Strategie-Texte oft nicht. Der saubere Weg ist daher häufig ein Hybrid-Setup: Self-Hosted für datensensible Routinen, Frontier-Cloud (mit AVV und EU-Region) für die anspruchsvolle Strategie-Schicht.

Drei Setup-Stufen — vom schlanken VPS für erste Schritte bis zur On-Premise-Hardware für strikt regulierte Branchen — und Sie können mit der Stufe starten, die heute passt, ohne den Aufbau später wegwerfen zu müssen.

Drei Setup-Stufen

Welche Stufe passt, hängt von Nutzervolumen, Latenz-Anforderung und Compliance-Pflichten ab. Beim Wechsel von Stufe zu Stufe bleibt der Software-Stack identisch — nur die Hardware skaliert mit.

Stufe 1

Starter — VPS mit CPU-only

Tool-Mix

  • Mittelgroßer VPS bei einem deutschen Anbieter (z. B. netcup, Hetzner), 16–32 GB RAM, NVMe-SSD, ohne GPU
  • Ollama mit kleineren Modellen (Gemma 4 in 4B–9B, Phi-4, Llama-3 8B) — CPU-Inferenz, langsamer, aber funktional
  • Open WebUI als Multi-User-Frontend, lokale Embeddings via Ollama, ChromaDB als Vektorspeicher
  • n8n für Workflows, Authentik oder Keycloak für Login
  • Optional ein einfacher RAG-Index auf eigenen Markdown-Dokumenten

Eignung

Kleine Teams (2–10 Nutzer), wenige parallele Anfragen, Use Cases mit deutscher Standardpost und klassischer RAG-Befragung. Erste Schritte ins Self-Hosting, bevor in GPU investiert wird.

Aufwand & Kosten

Setup 3–6 Tage. Laufende Kosten ca. 30–80 € / Monat (VPS-Miete + Backups). Modelle und Software sind Open Source.

Tradeoff

CPU-Inferenz ist deutlich langsamer als GPU — die Antwort auf eine kurze Frage dauert oft 10–30 Sekunden statt 1–3. Für Echtzeit-Anwendungen wie Live-Chat zu langsam, für asynchrone Workflows (Beleg-Klassifikation, Batch-Auswertung) sehr brauchbar.

Stufe 2

Professional — Server mit GPU

Tool-Mix

  • Dedizierter Server in einem deutschen Rechenzentrum mit einer Consumer- oder Workstation-GPU (z. B. RTX 4090, RTX 6000 Ada) — oder gemieteter GPU-Cloud-Server (Hetzner, OVH) bei eindeutiger DSGVO-Zusicherung
  • Ollama oder vLLM für Inferenz, mittelgroße Modelle (Llama-3 70B quantisiert, Gemma 2 27B, Qwen 32B, Mistral Large) mit Antwortzeiten unter 5 Sekunden
  • Vollständige RAG-Pipeline: Ollama-Embeddings, ChromaDB oder pgvector, optional Wissensgraph (KuzuDB) für Relationen, Hybrid Retrieval mit RRF-Fusion
  • Open WebUI mit RBAC und Audit-Log, n8n-Workflows, Authentik / Keycloak
  • Monitoring-Stack mit Grafana und Prometheus, Telegram- oder Slack-Alerts

Eignung

Aktive Nutzung in einem Team von 10–50 Personen, Echtzeit-Anwendungsfälle (Chat, schneller RAG), spezifische Wissensdomänen mit größerem Korpus.

Aufwand & Kosten

Setup 6–12 Tage. Laufende Kosten ca. 150–500 € / Monat (Hardware-Miete + Strom + Backups), je nach GPU-Klasse und Anbieter.

Tradeoff

Auch ein 70B-Modell mit guter Quantisierung liegt qualitativ unter dem jeweils aktuellen Frontier-Cloud-Modell. Für Standard-Aufgaben (Geschäftspost, Klassifikation, RAG-Antworten) reicht es; für anspruchsvolle Strategie-Texte oder komplexes Reasoning bleibt Cloud-Frontier die bessere Wahl — daher oft als Hybrid-Setup sinnvoll.

Stufe 3

On-Premise — Hardware im eigenen Serverraum

Tool-Mix

  • Hardware nach Bedarf: GPU-Workstation (z. B. mit RTX 6000 Ada), Tower- oder Rack-Server mit ECC-RAM, redundante NVMe-Storage
  • Stufe 2 in vollem Umfang, plus eigene physische Kontrolle: keine Cloud-Anbindung pflichtig, Netz-Trennung möglich (Air-Gapped-Setup)
  • Erweiterte Monitoring-Tools (Netdata, Prometheus, Loki) und Disaster-Recovery-Konzept (Offsite-Backup, Hardware-Redundanz)
  • Optionale Finetuning-Pipeline mit LoRA oder QLoRA auf eigener Hardware — möglich, aber nur bei klarem Use Case wirtschaftlich sinnvoll

Eignung

Branchen mit harten Datenschutz- oder Sicherheits-Anforderungen (regulierte Märkte, Forschung, Verteidigung, Behörden), Betriebe mit eigenem IT-Team und vorhandener Serverraum-Infrastruktur, Anforderung an Air-Gapped-Betrieb.

Aufwand & Kosten

Hardware-Investition typisch 8.000–25.000 € einmalig (je nach GPU-Klasse und Redundanz). Setup 10–20 Tage. Laufende Kosten v. a. Strom, Wartung, Backups — meist 50–150 € / Monat.

Tradeoff

Volle Datenkontrolle und keine wiederkehrenden Hosting-Gebühren, aber dafür komplette Operations-Verantwortung im Haus: Hardware-Defekte, Stromausfälle, Backup-Wiederherstellung, Kühlung. Ohne eigenes IT-Team oder externen Dienstleister nicht zu betreiben.

Was auf dem Server läuft

Der Software-Stack ist über alle drei Stufen hinweg derselbe — Open Source, Docker-basiert, austauschbar. Neun Bausteine, jeder mit klarer Funktion:

Inferenz-Engine

Ollama für einfache Setups, vLLM für höhere Last und Concurrency. Beide Open Source, beide Self-Hosted. Welche der beiden besser passt, hängt von Modellgröße und Anfragezahl ab.

Sprachmodelle

Gemma 4 (Google), Llama 3/4 (Meta), Qwen (Alibaba), Mistral. Lizenzen prüfen — die meisten erlauben kommerzielle Nutzung, einige mit Einschränkungen ab gewisser Nutzerzahl.

Embedding-Modell

Lokales Embedding für Vektor-Repräsentation, z. B. qwen3-embedding (1.024 Dim.) oder BGE-M3. Wichtig: deutsches Material braucht ein deutsch-trainiertes oder mehrsprachiges Modell, sonst leidet der Recall.

Vektorspeicher

ChromaDB für einfache Setups (Docker-native), pgvector für PostgreSQL-Integration, Qdrant für höhere Last und Filter-Komplexität. Auswahl nach Datenmenge und Abfrage-Pattern.

Wissensgraph (optional)

KuzuDB als embedded Graph-DB für Abhängigkeits- und Relations-Fragen. Sinnvoll, wenn nicht nur Text gesucht wird, sondern auch „was hängt mit was zusammen“.

RAG-Pipeline

Chunking, Embedding, Retrieval mit Hybrid-Strategie (Vektor + BM25, RRF-Fusion), Reranking, Prompt-Komposition. Die meiste Arbeit liegt nicht im Modell, sondern in der Pipeline-Qualität.

Frontend

Open WebUI für Multi-User-Chat mit RBAC und Audit-Log, eigene Web-Apps für Spezial-Anwendungen, n8n für Workflow-Integration.

Authentifizierung

Keycloak oder Authentik für Single-Sign-On, Active-Directory-Integration und 2FA. Wichtig: KI-Zugriff folgt dem gleichen Berechtigungsmodell wie andere Unternehmens-Tools.

Monitoring & Backup

Grafana für Dashboards, Prometheus für Metriken, Uptime Kuma für externe Verfügbarkeit. Backup-Strategie: täglich automatisch, offsite-Kopie, regelmäßige Restore-Tests.

Wo sich Self-Hosting konkret lohnt

Sechs Branchen-Profile, in denen ein eigener KI-Server typischerweise die richtige Wahl ist — entweder wegen Datenschutz, wegen Volumen oder wegen Compliance-Pflichten:

Kanzleien & Steuerberater

Gesetze, Urteile, Mandanten-Korrespondenz im RAG-System. Datenschutz-strikt, keine US-Cloud. Ergänzt die juristische Recherche und beschleunigt Standardanfragen — ersetzt aber nicht die fachliche Bewertung.

Heilberufe & Praxen

Patientenakten und Behandlungsleitlinien dürfen die Praxis nicht verlassen. Self-Hosted ermöglicht KI-gestützte Recherche und Dokumentations-Hilfe ohne Datenschutzkonflikt.

Handwerks- und Technikbetriebe

Hunderte Datenblätter, Hersteller-Anleitungen, VDE-Normen und eigene Standards in einem System, das vom Monteur auf der Baustelle abgefragt werden kann.

Interne Wissensdatenbank

Handbücher, SOPs, Schulungsunterlagen, E-Mail-Archive — alles durchsuchbar in natürlicher Sprache. Neue Mitarbeitende finden Antworten in Sekunden, Wissenstransfer beim Mitarbeiter-Wechsel wird einfacher.

Versicherungs- und Finanzdienstleister

Tarifwerke, Bedingungen, Schadensprozesse als RAG-Wissensbasis — interne Anfragen werden konsistent beantwortet. Mit MaRisk- und Compliance-Anforderungen im Blick.

Behörden und öffentlicher Sektor

Hohe Anforderungen an Datenhoheit, oft Air-Gapped. On-Premise-Setups mit lokalen Modellen und sauberem Audit-Trail erfüllen typische Compliance-Vorgaben.

Was wir vermitteln

Damit Sie den Server selbst betreiben können, sechs Kompetenzbereiche, die wir in Workshop und Pilot-Begleitung aufbauen:

Modell-Auswahl

Welches Open-Source-Modell passt zu welchem Use Case (Größe, Qualität, RAM-Bedarf, Lizenz). Wann lohnt sich Quantisierung, wann ein größeres Modell mit weniger Tokens pro Sekunde.

RAG-Tuning

Chunking-Strategie, Embedding-Wahl, Hybrid-Retrieval, Reranking — und wie man Recall@5 gegen ein Golden-Query-Set misst, statt sich auf Bauchgefühl zu verlassen.

Workflow-Verständnis

Wie ein n8n-Workflow zu lesen, anzupassen und zu debuggen ist. Wo Trigger sitzen, wo Fehler entstehen, wo Retry und Dead-Letter-Queue greifen.

Sicherheit & Zugriff

RBAC pro Rolle und Abteilung, Audit-Log für Compliance, VPN-Zugang für Admin-Schnittstellen, 2FA für alle Zugriffe.

Monitoring & Backups

Welche Metriken überwacht werden, wie Alerts sinnvoll konfiguriert sind, wie Backup-Restores regelmäßig getestet werden — nicht erst, wenn der Server brennt.

Update-Disziplin

Modell-Updates kontrolliert einspielen, Security-Patches zeitnah, eine Test-Umgebung für größere Änderungen. KI-Stack ist Software-Stack — gleiche Pflege-Pflichten.

Was automatisiert wird

Sechs Routine-Schritte, die im laufenden Betrieb von Workflows übernommen werden — damit der Server stabil läuft, ohne dass jemand täglich hinschaut:

Datensynchronisation in den RAG-Index

Neue oder geänderte Dokumente werden über n8n-Workflows automatisch re-embedded und in den Vektorspeicher übernommen.

Modell- und Container-Updates

Automatisierte Update-Routinen ziehen neue Modelle oder Container-Images, prüfen Health-Checks und schalten erst nach erfolgreichem Smoke-Test produktiv.

Health-Checks & Alerts

Erreichbarkeit der Dienste, Antwortzeiten, GPU-Auslastung, Disk-Füllstand werden kontinuierlich überwacht — Telegram- oder Slack-Alert bei Auffälligkeiten.

Backup-Routinen

Datenbanken, Vektorspeicher, Konfigurationen, eigene Modelle werden täglich automatisch gesichert, offsite-Kopie verschlüsselt abgelegt, monatlicher Restore-Test.

Audit-Logging

Wer hat wann welchen Prompt geschickt, welche Daten abgerufen, welches Tool aufgerufen — vollständig protokolliert und für Compliance-Audits exportierbar.

Capacity-Tracking

Tokens pro Tag, Anfragen pro Stunde, Kosten-Indikatoren (Strom, GPU-Auslastung) als Dashboard, damit Skalierungs-Entscheidungen auf Daten basieren.

Was bewusst MANUELL bleibt

Self-Hosting heißt Eigenverantwortung. Diese sechs Disziplinen gehören in menschliche Hände — Workflow-Automation ersetzt sie nicht:

Strategische Modell-Entscheidungen

Welche Modelle Sie einsetzen, welche Lizenz Sie akzeptieren, welche Tradeoffs Sie machen (Qualität vs. Geschwindigkeit vs. Datenkontrolle) — das ist Geschäfts-Entscheidung, nicht Workflow.

Wahl der Daten im RAG-Index

Welche Dokumente in den Index dürfen, welche nicht, welche freigegeben werden müssen — eine menschliche Entscheidung mit Datenschutz- und Vertraulichkeits-Kontext.

Qualitäts-Bewertung der Antworten

Stichproben prüfen, Halluzinationen erkennen, Modell- oder Pipeline-Tuning ableiten — Beobachtung, die nicht automatisierbar ist, weil sie inhaltlichen Kontext braucht.

Disaster-Recovery-Übungen

Quartalsweise tatsächlich einen Backup-Restore durchspielen, Failover testen, Notfall-Pfade dokumentieren. Routine, die ohne menschliche Disziplin nicht passiert.

Sicherheits-Audits

Zugriffsrechte regelmäßig prüfen, ausgeschiedene Mitarbeitende entfernen, Penetration-Test bei größeren Setups — keine Aufgabe für einen Workflow.

Skalierungs-Entscheidungen

Wann wird die Hardware zu klein, wann lohnt sich der Wechsel auf eine größere GPU oder ein Hybrid-Setup mit Cloud-Frontier — Daten liefert das Monitoring, entscheiden müssen Sie.

Wie der Übergang in den Selbstbetrieb läuft

Vom Anforderungs-Workshop bis zum vollen Selbstbetrieb in der Regel 8–14 Wochen, abhängig von Stufe und Datenmenge im RAG-Index:

1

Anforderungs-Workshop

Welche Use Cases sollen abgedeckt werden, welches Volumen ist zu erwarten, welche Daten dürfen in den RAG-Index, welche Branchen-Compliance gilt?

2

Setup-Stufe wählen

Starter, Professional oder On-Premise — Empfehlung mit Begründung anhand Use Cases, Budget und vorhandenem IT-Wissen im Team.

3

Hardware und Hosting konfigurieren

VPS-Anbieter wählen oder Hardware bestellen, Netzwerk und Zugriffsstrukturen aufsetzen, VPN- und SSO-Anbindung vorbereiten.

4

Stack aufbauen

Inferenz-Engine, Modelle, Embedding, Vektorspeicher, RAG-Pipeline, Frontend, n8n-Workflows, Auth und Monitoring — als Docker-Stack reproduzierbar.

5

RAG-Daten kuratieren und indexieren

Erste Datenquellen einsammeln, Chunking-Strategie testen, Golden-Query-Set definieren, gegen das später jede Pipeline-Änderung gemessen wird.

6

Schulung & Übergabe

1–2-tägiger Workshop mit IT- und Fachverantwortlichen: Architektur verstehen, Workflows lesen und anpassen, RAG-Daten pflegen, Monitoring nutzen.

7

Begleiteter Pilot-Monat

Wöchentliche Sparring-Sessions, RAG-Qualität messen, Prompts kuratieren, erste Edge-Cases dokumentieren. Sie betreiben, wir greifen nur ein, wenn nötig.

8

Selbstbetrieb mit Wartungs-Disziplin

Ab dann gehört das Setup Ihnen. Optional: vierteljährliche Auffrischer bei Modell-Wechsel, neuen Komponenten oder Compliance-Updates.

Aufwand und Investition hängen von der gewählten Stufe und dem Begleitungs-Umfang ab — eine konkrete Einschätzung gibt es nach dem Anforderungs-Workshop und im Rahmen der Preisübersicht.

Bereit für den nächsten Schritt?

Kostenloses Erstgespräch. Unverbindlich. In 30 Minuten wissen Sie, ob und wie KI Ihrem Unternehmen helfen kann.

Erstgespräch buchenBAFA-Förderung