Prometheus
64k ★
Time-Series-Datenbank
Scraped Metriken alle 15 Sekunden, speichert sie in einer eigenen TSDB, beantwortet Abfragen via PromQL. Das Herz des Stacks.
Sieben Container, die zusammen einen vollständigen Observability-Stack bilden: Metriken sammeln, Logs aggregieren, Dashboards bauen, Alerts schicken. Eine konkrete Alternative zu Datadog und New Relic für Hoster und IT-Teams, die ihre Infrastruktur selbst im Blick behalten wollen.
Compose für den zentralen Observability-Host
services:
prometheus:
image: prom/prometheus:v3.5.0
container_name: prometheus
restart: unless-stopped
ports: ["9090:9090"]
volumes:
- ./prometheus.yml:/etc/prometheus/prometheus.yml:ro
- prometheus_data:/prometheus
command:
- --config.file=/etc/prometheus/prometheus.yml
- --storage.tsdb.retention.time=30d
networks: [observability]
grafana:
image: grafana/grafana:11.5.0
container_name: grafana
restart: unless-stopped
ports: ["3000:3000"]
volumes:
- grafana_data:/var/lib/grafana
environment:
- GF_SERVER_ROOT_URL=https://obs.hoster.de
- GF_SECURITY_ADMIN_PASSWORD=${GRAFANA_ADMIN_PASS}
networks: [observability]
loki:
image: grafana/loki:3.4.2
container_name: loki
restart: unless-stopped
ports: ["3100:3100"]
volumes:
- ./loki-config.yaml:/etc/loki/local-config.yaml
- loki_data:/loki
command: -config.file=/etc/loki/local-config.yaml
networks: [observability]
alertmanager:
image: prom/alertmanager:v0.28.1
container_name: alertmanager
restart: unless-stopped
volumes:
- ./alertmanager.yml:/etc/alertmanager/alertmanager.yml:ro
networks: [observability]
volumes:
prometheus_data:
grafana_data:
loki_data:
networks:
observability:Jede Komponente macht eine Sache gut. Zusammen ergeben sie einen Stack, der vollständig auf eigenem Server läuft und keine SaaS-Abhängigkeit hat. Alle sieben sind echtes Open Source.
64k ★
Time-Series-Datenbank
Scraped Metriken alle 15 Sekunden, speichert sie in einer eigenen TSDB, beantwortet Abfragen via PromQL. Das Herz des Stacks.
74k ★
Dashboards + Alerting
Frontend für und . Dashboards für Hosts, Container, Kunden. Alertmanager-Integration für Slack/E-Mail.
28k ★
Log-Aggregation
Wie für Logs: kein Volltext-Index, sondern Labels. Sehr ressourcen-effizient. Abfragen via LogQL.
28k ★
Log-Shipper auf jedem Host
Sammelt Logs aus journald, Docker-Containern, Dateipfaden und sendet sie an . Auf jedem zu überwachenden Host installiert.
19k ★
Container-Metriken
Liest CPU-, RAM-, Netzwerk-Metriken pro . Exportiert sie im Prometheus-Format. Auf jedem Container-Host läuft eine Instanz.
13k ★
Host-Metriken
Misst CPU-Load, RAM, Disk-IO, Netzwerk-Counter, System-Last des Hosts selbst. Auf jedem überwachten Host als Service oder Container.
79k ★
Realtime-Monitoring (optional)
All-in-One-Echtzeit-Monitoring mit eigener UI. Ergänzend zu + — für 1-Sekunde-Reaktion bei akuten Problemen.
Die sieben Komponenten arbeiten in einem klaren Datenfluss: node_exporter und sammeln Metriken auf jedem überwachten Host und liefern sie auf Port 9100/8080 aus. scraped diese Endpunkte alle 15 Sekunden und speichert sie in einer Time-Series-DB. Promtail sammelt Logs aus Containern und journald und schickt sie an zur Aggregation. zeigt beides — Metriken und Logs — in Dashboards mit Alerting.
Das Ergebnis: eine einzige UI für alle Hosts, alle Container, alle Services. Wer wissen will, ob der Webshop seines Kunden noch läuft, ob die DB-Last hoch ist, ob ein bestimmter Fehler im Log auftaucht — schaut in , nicht in 18 separate SSH-Sessions. Datadog leistet dasselbe, aber kostet bei 18 Hosts ca. 5.000 €/Jahr — der Self-Hosted-Stack ist einmaliges Setup plus ein .
Ein kleiner Hosting-Anbieter mit 15–25 Kunden-VPS auf eigener Hardware hat zwei Probleme ohne zentrales Monitoring: Erstens kommt jede Information vom Kunden — 'Mein Shop ist down', 'der Server reagiert langsam', 'meine Mails kommen nicht durch'. Reaktiv. Zweitens, wenn man sich selbst Klarheit verschafft, geht es über 18 SSH-Sessions, htop, journalctl. Skaliert nicht.
Ein Observability-Stack dreht beides um: man sieht in , dass die Disk auf VPS-12 zu 91 % voll ist — bevor der Kunde ein Ticket öffnet. Alerts gehen per Slack raus. Logs sind durchsuchbar über alle Hosts gleichzeitig. Datadog würde dasselbe leisten — aber bei einem 6-Personen-Hoster machen 5.000 € Lizenzkosten pro Jahr einen großen Unterschied.
Mandantenfall
Kleiner Managed-Services-Provider in Niedersachsen, 6 Personen, 18 Kunden-VPS auf eigenen Hetzner-Servern. Vor 8 Monaten von 'jeder loggt sich einzeln ein' auf zentralen Observability-Stack umgestellt. Heute: 1 Grafana-Dashboard für alle, Slack-Alerts für jedes Disk-Memory-Service-Problem, 30 Tage Metriken-Historie für Post-Mortems.
Konkrete Setups, die Schmidt-Werlich seit 8 Monaten täglich nutzen. Jeder Pattern ersetzt entweder eine reaktive Tätigkeit oder ein Loch, das ohne zentrales Monitoring gar nicht gesehen wurde.
Sechs Stack-Level-Funktionen — Eigenschaften, die erst durch das Zusammenspiel der Komponenten entstehen.
Beispiel Prometheus-Alert-Regel
# /etc/prometheus/alerts/disk.yml
groups:
- name: disk
interval: 30s
rules:
- alert: DiskUsageHigh
expr: |
(
(node_filesystem_size_bytes - node_filesystem_avail_bytes)
/ node_filesystem_size_bytes
) * 100 > 85
for: 5m
labels:
severity: warning
annotations:
summary: "Disk auf {{ $labels.instance }} > 85% voll"
description: |
Mountpoint {{ $labels.mountpoint }} auf Host
{{ $labels.instance }} ist zu {{ $value | printf \"%.1f\" }}%
ausgelastet. Wartung erforderlich.
# → Alertmanager → Slack #hosting-alertsAlternativen ehrlich verglichen
Drei Alternativen mit unterschiedlichen Stärken. Der Self-Hosted-Stack ist der pragmatische Default für und kleine Hoster.
SaaS-Marktführer
Datadog Inc., USA
SaaS mit Freitier
New Relic Inc., USA
Klassisch self-hosted
Zabbix LLC, GPL-2.0
Faustregel: Wer 5–100 Hosts hat, IT-affine Mitarbeitende und Beratungs-Support, ist mit dem Self-Hosted-Stack pragmatisch unterwegs. Datadog/New Relic skalieren nur über den Geldbeutel — bei 50+ Hosts werden sie deutlich teurer als ein zusätzlicher Mini-PC. Zabbix bleibt eine Option für reine Infrastruktur-Monitoring ohne Container-Tiefe.
Pricing
Lizenz
Alle 7 Komponenten Open Source: Prometheus + cAdvisor + node_exporter unter Apache-2.0, Grafana + Loki + Promtail unter AGPL-3.0, Netdata unter GPL-3.0. Für Eigenbetrieb ohne Re-Distribution keine Auflagen.
Laufende Kosten
Ein zusätzlicher Observability-Host: VPS mit 4–8 GB RAM, 100 GB Storage (Hetzner CPX31 ab 15 €/Monat). Plus minimaler Overhead auf jedem überwachten Host (node_exporter + cAdvisor + Promtail = ca. 50 MB RAM/Host). Bei 18 Hosts: 0,9 GB RAM zusätzlich verteilt.
Aufwand
Initial-Setup mit allen 7 Komponenten + ersten 5 Hosts: 2–3 Tage. Roll-Out auf weitere Hosts: 30 Minuten pro Host. Dashboard-Aufbau für Hoster-Setup (Multi-Tenant, Kunden-Dashboards, Alerts): 2 Beratungstage.
Datadog für 18 Hosts: ca. 5.000 €/Jahr. New Relic free tier reicht für ca. 10 Hosts. Self-Hosted-Stack: einmaliges Setup (5–8 Beratungstage) + 15 €/Monat . Break-even gegen Datadog bei Hosting-Anbietern typischerweise nach 2–4 Monaten.
Verwandte Themen
macht externe Checks (HTTPS, DNS), macht Container-Inspektion, der Stack liefert die Infrastruktur-Sicht:
Kostenloses Erstgespräch. Unverbindlich. In 30 Minuten wissen Sie, ob und wie KI Ihrem Unternehmen helfen kann.