Starter — VPS mit CPU-only
Tool-Mix
- Mittelgroßer VPS bei einem deutschen Anbieter (z. B. netcup, Hetzner), 16–32 GB RAM, NVMe-SSD, ohne GPU
- Ollama mit kleineren Modellen (Gemma 4 in 4B–9B, Phi-4, Llama-3 8B) — CPU-Inferenz, langsamer, aber funktional
- Open WebUI als Multi-User-Frontend, lokale Embeddings via Ollama, ChromaDB als Vektorspeicher
- n8n für Workflows, Authentik oder Keycloak für Login
- Optional ein einfacher RAG-Index auf eigenen Markdown-Dokumenten
Eignung
Kleine Teams (2–10 Nutzer), wenige parallele Anfragen, Use Cases mit deutscher Standardpost und klassischer RAG-Befragung. Erste Schritte ins Self-Hosting, bevor in GPU investiert wird.
Aufwand & Kosten
Setup 3–6 Tage. Laufende Kosten ca. 30–80 € / Monat (VPS-Miete + Backups). Modelle und Software sind Open Source.
Tradeoff
CPU-Inferenz ist deutlich langsamer als GPU — die Antwort auf eine kurze Frage dauert oft 10–30 Sekunden statt 1–3. Für Echtzeit-Anwendungen wie Live-Chat zu langsam, für asynchrone Workflows (Beleg-Klassifikation, Batch-Auswertung) sehr brauchbar.