Ollama
Der lokale LLM-Server. Llama, Mistral, Qwen, — alle gängigen Open-Weight-Modelle, in 15 Minuten startklar, mit OpenAI-kompatibler . Die Plattform für , die Frontier-Qualität wollen, ohne Daten in eine US-Cloud zu geben.
Projekt-Profil
Ollama
Run large language models locally
Stand: 1. Juni 2026
GitHub-Sterne
173k
Forks
16k
Offene Issues
3.3k
Lizenz
MIT
Aktuelle Version
v0.24.0
Sprache
Go
Was ist Ollama?
ist ein in Go geschriebener Server, der Open-Weight-LLMs verwaltet, lädt und über eine OpenAI-kompatible ausliefert. Modelle werden mit einem Befehl heruntergeladen (` pull llama3.3:70b`), bleiben im Speicher und beantworten Anfragen lokal — ohne dass eine Anfrage je das Netzwerk verlässt.
Die Software ist MIT-lizenziert. Die Modelle, die geladen werden, haben jeweils EIGENE Lizenzen — wichtiger Punkt: Llama-Modelle stehen unter Meta-Community-Lizenz (kein klassisches OSI), Mistral und Qwen unter Apache-2.0. Der Self-Hosting-Stack ist Open Source, die Modell-Lizenz bestimmt was kommerziell erlaubt ist.
Warum ein Maschinenbauer Ollama nutzt
Bei einem Sondermaschinenbauer ist jedes Lastenheft, jede CAD-Beschreibung, jede Wettbewerber-Patent-Recherche eine Frage der eigenen Wettbewerbsfähigkeit. ChatGPT, Claude oder Copilot-Cloud sind technisch beeindruckend — aber dort einen Verpackungsmaschinen-Lastenheft hochzuladen, bedeutet, IP an einen US-Cloud-Anbieter zu geben.
Lokaler KI-Stack mit als Server + als Oberfläche + für Automation: 80 Mitarbeitende nutzen Frontier-Qualität auf eigenem Server. Jede Anfrage bleibt im Haus, jede Antwort ist nachvollziehbar, jeder Token zählt nicht für eine API-Rechnung. Schatten-IT-Problem gelöst, Qualität nicht reduziert.
Mandantenfall
Maschinenbau Wagner
Sondermaschinenbau für Verpackungstechnik, 80 Personen, Standort Niedersachsen. ChatGPT war intern verboten — aus IP-Schutz-Gründen. Audit hat ergeben: 30 Mitarbeitende haben es trotzdem genutzt (Schatten-IT). Die Antwort: ein lokaler KI-Server mit , der seit 11 Monaten produktiv läuft. Schatten-IT-Quote: 0 %.
IP-Schutz für CAD und Patente
Datenblatt-Generierung in 4 Sprachen
Code-Vervollständigung für SPS
Übersetzungen ohne SaaS
RAG über Wettbewerber-Patente
API-Anbindung für CAD-Software
Was die Belegschaft konkret damit macht
Acht produktive Anwendungsfälle aus 11 Monaten Ollama-Praxis bei Wagner. Jeder ersetzt entweder Schatten-IT (heimliches ChatGPT) oder etwas, das ohne lokale gar nicht ging.
Lastenheft-Analyse
Datenblatt-Generierung in 4 Sprachen
Code-Vervollständigung SPS
Patent-Recherche-Assistent
Reklamations-Antwortentwürfe
Übersetzungen für Messeprospekte
E-Mail-Drafting im Innendienst
Sprachsteuerung CAD (POC)
Kern-Funktionen von Ollama
Was als LLM-Server liefert — und welche dieser Funktionen ein KMU-Setup tatsächlich tragen.
100+ Modelle aus dem Repository
OpenAI-kompatible API
Quantisierung für RAM/VRAM-Effizienz
GPU-Acceleration
Modell-Library (ollama.com/library)
Multi-Modal (Vision-Modelle)
Alternativen ehrlich verglichen
Wenn Ollama nicht passt — was sonst?
Drei Alternativen für lokale LLM-Inference. Jede mit eigenem Profil — hat den breitesten Pragmatismus-Korridor.
CLI / Library
llama.cpp
Georgi Gerganov, MIT
- + Sehr feine Kontrolle (Quantisierung, Batch-Size)
- + Sehr ressourcen-effizient, kein Container nötig
- − Steile Lernkurve, keine API out-of-the-box
- − Modell-Management komplett selbst
Desktop-GUI
LM Studio
Element Labs, proprietär
- + Sehr gute UX für Einzelnutzer
- + Chat-Interface direkt integriert
- − Nicht headless / nicht serverbar
- − Proprietär, nicht Open Source
Production-Inference
vLLM
UC Berkeley, Apache-2.0
- + Hoch performant, PagedAttention
- + OpenAI-API, Multi-User-tauglich
- − Setup komplexer als Ollama
- − Kein integriertes Modell-Management
Faustregel: Wer einen Server mit oder einen Apple-Silicon-Mac hat und schnell produktiv werden will, ist mit in 15 Minuten startklar. llama.cpp ist die richtige Wahl, wenn man tiefe Kontrolle über Inference-Parameter und Quantisierung braucht. LM Studio passt für Einzelplatz-Profis. vLLM lohnt sich bei mehreren Hundert parallelen Anfragen.
Pricing
MIT-Server. Modell-Lizenz separat. Hardware dominiert.
Lizenz
Ollama selbst: MIT — echte OSI-Open-Source-Lizenz für die Server-Software. Die Modelle, die du lädst, haben EIGENE Lizenzen — Llama-Modelle Meta Community Lizenz (NICHT OSI), Mistral/Qwen/Gemma Apache-2.0. Für kommerzielle Nutzung Modell-Lizenz prüfen.
Laufende Kosten
Hardware-dominiert. Mid-Range: RTX 4090 + 32 GB RAM Workstation ab 3.000 €. Premium: Apple Mac Studio M4 Ultra mit 192 GB Unified Memory ab 8.000 € (läuft alles inkl. 70B-Modelle). Strom: ca. 150–300 W bei Inference, idle deutlich weniger.
Aufwand
Ollama installieren: 10 Minuten (Brew, Docker oder Linux-Installer). Erstes Modell ziehen: 5–60 Minuten je nach Größe. Produktives KMU-Setup mit Open WebUI, RAG, Workflow-Anbindung und Mitarbeiter-Schulung: 5–10 Beratungstage.
Wichtig: Anders als bei Caddy oder (Server-Software allein) verschiebt sich bei die Lizenz-Frage auf das Modell-Gewicht. Llama 3.x ist NICHT klassisches Open Source (Meta Community License hat kommerzielle Schranken bei sehr großen Anbietern), Mistral und Qwen sind dagegen Apache-2.0. Für mit unter 700 Mio. monatlich aktiven Nutzern ist auch Llama-Nutzung kommerziell frei.
Modelle pullen + API-Call
# Modelle laden
docker exec ollama ollama pull llama3.3:70b
docker exec ollama ollama pull qwen2.5-coder:32b
docker exec ollama ollama pull llama3.2-vision:11b
# API-Call (OpenAI-kompatibel)
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "llama3.3:70b",
"messages": [
{"role": "system", "content": "Du bist Maschinenbau-Lastenheft-Experte."},
{"role": "user", "content": "Extrahiere Anforderungen aus diesem PDF: ..."}
],
"temperature": 0.2
}'Ollama als Docker-Container mit GPU-Pass-through
services:
ollama:
image: ollama/ollama:0.24.0
container_name: ollama
restart: unless-stopped
ports:
- 11434:11434
volumes:
- ollama_models:/root/.ollama
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: all
capabilities: [gpu]
environment:
- OLLAMA_HOST=0.0.0.0
- OLLAMA_KEEP_ALIVE=24h
- OLLAMA_NUM_PARALLEL=4
networks:
- ki-backend
volumes:
ollama_models:
networks:
ki-backend:
external: trueVerwandte Themen
Ollama ist die Maschine — was bedient sie?
ist der Inference-Server. Die Bedien-Oberfläche kommt von , Workflows binden an, die ganze Plattform steht im Lösungsblock 'Eigener KI-Server':
Bereit für den nächsten Schritt?
Kostenloses Erstgespräch. Unverbindlich. In 30 Minuten wissen Sie, ob und wie KI Ihrem Unternehmen helfen kann.