Erstgespräch buchen
Tool im Einsatz

Ollama

Der lokale LLM-Server. Llama, Mistral, Qwen, — alle gängigen Open-Weight-Modelle, in 15 Minuten startklar, mit OpenAI-kompatibler . Die Plattform für , die Frontier-Qualität wollen, ohne Daten in eine US-Cloud zu geben.

Projekt-Profil

Ollama

Run large language models locally

Stand: 1. Juni 2026

GitHub-Sterne

173k

Forks

16k

Offene Issues

3.3k

Lizenz

MIT

Aktuelle Version

v0.24.0

Sprache

Go

Erstveröffentlichung
26. Juni 2023
Letzter Commit
1. Juni 2026

Drittquelle · Wikidata (CC0)

Wikidata-Profil

Ollama

Q124636097

Lizenz

MIT-Lizenz

Was ist Ollama?

ist ein in Go geschriebener Server, der Open-Weight-LLMs verwaltet, lädt und über eine OpenAI-kompatible ausliefert. Modelle werden mit einem Befehl heruntergeladen (` pull llama3.3:70b`), bleiben im Speicher und beantworten Anfragen lokal — ohne dass eine Anfrage je das Netzwerk verlässt.

Die Software ist MIT-lizenziert. Die Modelle, die geladen werden, haben jeweils EIGENE Lizenzen — wichtiger Punkt: Llama-Modelle stehen unter Meta-Community-Lizenz (kein klassisches OSI), Mistral und Qwen unter Apache-2.0. Der Self-Hosting-Stack ist Open Source, die Modell-Lizenz bestimmt was kommerziell erlaubt ist.

Warum ein Maschinenbauer Ollama nutzt

Bei einem Sondermaschinenbauer ist jedes Lastenheft, jede CAD-Beschreibung, jede Wettbewerber-Patent-Recherche eine Frage der eigenen Wettbewerbsfähigkeit. ChatGPT, Claude oder Copilot-Cloud sind technisch beeindruckend — aber dort einen Verpackungsmaschinen-Lastenheft hochzuladen, bedeutet, IP an einen US-Cloud-Anbieter zu geben.

Lokaler KI-Stack mit als Server + als Oberfläche + für Automation: 80 Mitarbeitende nutzen Frontier-Qualität auf eigenem Server. Jede Anfrage bleibt im Haus, jede Antwort ist nachvollziehbar, jeder Token zählt nicht für eine API-Rechnung. Schatten-IT-Problem gelöst, Qualität nicht reduziert.

Mandantenfall

Maschinenbau Wagner

Sondermaschinenbau für Verpackungstechnik, 80 Personen, Standort Niedersachsen. ChatGPT war intern verboten — aus IP-Schutz-Gründen. Audit hat ergeben: 30 Mitarbeitende haben es trotzdem genutzt (Schatten-IT). Die Antwort: ein lokaler KI-Server mit , der seit 11 Monaten produktiv läuft. Schatten-IT-Quote: 0 %.

IP-Schutz für CAD und Patente

Lastenhefte, CAD-Beschreibungen, eigene Patentanmeldungen und Wettbewerber-Recherchen sind Wettbewerbs-Asset. Sie dürfen kein US-Cloud-Anbieter sehen — auch nicht 'AVV-konform', auch nicht 'mit EU-Endpoint'.

Datenblatt-Generierung in 4 Sprachen

Maschinen-Datenblätter müssen in DE/EN/CN/FR vorliegen. Manuelle Übersetzung dauert Wochen, klassische DeepL-Nutzung lädt Inhalte zu DeepL hoch. Lokaler übersetzt, in der gleichen Infrastruktur, mit der gleichen Markenname-Konsistenz.

Code-Vervollständigung für SPS

SPS-Programmierung in strukturiertem Text (IEC 61131-3) wird im hauseigenen Codium über mit Qwen 2.5 Coder 32B vervollständigt. Kein GitHub Copilot, kein US-API-Aufruf — Code-Logik bleibt im Haus.

Übersetzungen ohne SaaS

Marketing-Texte, Messeprospekte, Reklamations-Antworten in mehreren Sprachen — alles lokal generiert. Mit Glossar-Konsistenz für Markennamen, technische Begriffe und Produktcodes.

RAG über Wettbewerber-Patente

Eigene Datenbank mit 12.000+ Patenten aus DEPATIS (öffentliches Patentamt) ist semantisch durchsuchbar. Frage: 'Welche Patente betreffen Folienschweißung mit Heißluftströmung?' liefert relevante Stellen mit Aktenzeichen.

API-Anbindung für CAD-Software

Die OpenAI-kompatible von wird von einem internen CAD-Plugin angesprochen — Frage zum Bauteil im CAD-Kontext, Antwort kommt vom lokalen , kein Cloud-Anteil.

Was die Belegschaft konkret damit macht

Acht produktive Anwendungsfälle aus 11 Monaten Ollama-Praxis bei Wagner. Jeder ersetzt entweder Schatten-IT (heimliches ChatGPT) oder etwas, das ohne lokale gar nicht ging.

Lastenheft-Analyse

Kunde schickt 80-Seiten-Lastenheft als PDF. Werkstatt-Leiter lädt es ins hoch, fragt: 'Extrahiere alle technischen Anforderungen als Tabelle, sortiert nach Pflicht-/Kann-Anforderung.' (Llama 3.3 70B) liefert in 90 Sekunden 47 Zeilen — geprüft, in den Angebotsprozess übernommen.

Datenblatt-Generierung in 4 Sprachen

Stamm-Inhalt liegt als Markdown vor. : Datenblatt → (Llama 3.2) übersetzt in DE/EN/CN/FR, Glossar-konsistent für Markennamen. Vorher: 2 Wochen pro Datenblatt-Set. Jetzt: 2 Stunden inklusive Korrekturlauf.

Code-Vervollständigung SPS

Inhouse-Codium-Plugin spricht via Ollama-API mit Qwen 2.5 Coder 32B. SPS-Strukturierter-Text wird kontextbewusst vervollständigt — Variable-Definitionen, Funktions-Aufrufe, Kommentare. Senior-Entwickler validieren, Junior-Entwickler werden produktiver.

Patent-Recherche-Assistent

Lokales mit hat 12.000 Wettbewerber-Patente aus DEPATIS indexiert. Frage in der Open-WebUI-Oberfläche, Llama 3.3 70B antwortet mit Kontext-Auszügen und Patent-Aktenzeichen. Recherche-Stunden pro Projekt: von 8 auf 1,5.

Reklamations-Antwortentwürfe

Eingehende Reklamation wird vom Innendienst per gefüttert: 'Entwirf eine Antwort, freundlich aber rechtssicher, mit Verweis auf Vertragsklausel X.' Llama 3.3 schreibt Entwurf, Innendienst-Leiter editiert und sendet. Zeit pro Antwort: 8 statt 25 Minuten.

Übersetzungen für Messeprospekte

Marketing-Abteilung produziert Messeprospekte in DE, lässt sie via in EN/CN/FR übersetzen. Glossar-konsistent (Markennamen wie 'WrapPro 3000' bleiben unangetastet), stilistisch passend (Messe-Tonalität statt Übersetzungs-Englisch).

E-Mail-Drafting im Innendienst

Standard-Workflow: 'Bestätige Lieferzeit Auftrag #12345 an Kunden in höflichem Ton.' liefert 4 Varianten, Innendienst-Mitarbeiter wählt + ergänzt. Email-Backlog im Innendienst von 40 auf 8 pro Tag reduziert.

Sprachsteuerung CAD (POC)

Pilot mit zwei Konstrukteuren: Anweisung per Mikro an CAD-Plugin, Llama 3.3 versteht ('Verschiebe die Antriebseinheit um 30 mm in X-Richtung, kollisionsfrei'), Plugin setzt um. Noch nicht produktiv, aber spannender für die nächsten 12 Monate.

Kern-Funktionen von Ollama

Was als LLM-Server liefert — und welche dieser Funktionen ein KMU-Setup tatsächlich tragen.

100+ Modelle aus dem Repository

Llama 3.3, Mistral, Qwen 2.5, 3, Phi 4, DeepSeek — jedes mit ` pull ` geladen. Versionen sind tags (`:70b`, `:7b`, `:q4_K_M`). Aktualisierungen über .com/library, neue Modelle innerhalb von Tagen nach Release verfügbar.

OpenAI-kompatible API

Drop-in-Ersatz für die OpenAI-API: gleiche Endpoints (/v1/chat/completions, /v1/), gleiche Request-Struktur. n8n-Nodes, LangChain, das Python-OpenAI-SDK, — alles funktioniert ohne Code-Änderung gegen .

Quantisierung für RAM/VRAM-Effizienz

Modelle werden quantisiert (Q4, Q5, Q8) verfügbar gemacht. Llama 3.3 70B in Q4_K_M passt in 48 GB VRAM (RTX 5090 + RTX 4090 SLI oder Apple Mac Studio M4 Ultra), das volle FP16-Modell bräuchte 140 GB.

GPU-Acceleration

NVIDIA CUDA (alle modernen RTX), AMD ROCm (RDNA3+), Apple Metal (M-Mac), Intel oneAPI — alles wird automatisch erkannt und genutzt. Fallback auf CPU für kleine Modelle ohne .

Modell-Library (ollama.com/library)

Zentrales Repository mit allen gängigen Open-Weight-Modellen. Inkl. Modellkarten mit Größe, Lizenz und Anwendungsfall. Eigene Modelle (z. B. Fine-Tunes) können als Modelfile gebaut und gehostet werden — analog zu Dockerfiles.

Multi-Modal (Vision-Modelle)

Vision-Modelle wie Llama 3.2 Vision, LLaVa, Qwen 2.5 VL akzeptieren Bilder via Base64 oder URL und antworten textbasiert. Anwendung bei Wagner: gescannte Lieferscheine, Bauteil-Fotos für Reklamationsbearbeitung, Whiteboard-Skizzen für Lastenheft-Workflows.

Alternativen ehrlich verglichen

Wenn Ollama nicht passt — was sonst?

Drei Alternativen für lokale LLM-Inference. Jede mit eigenem Profil — hat den breitesten Pragmatismus-Korridor.

CLI / Library

llama.cpp

Georgi Gerganov, MIT

  • + Sehr feine Kontrolle (Quantisierung, Batch-Size)
  • + Sehr ressourcen-effizient, kein Container nötig
  • − Steile Lernkurve, keine API out-of-the-box
  • − Modell-Management komplett selbst

Desktop-GUI

LM Studio

Element Labs, proprietär

  • + Sehr gute UX für Einzelnutzer
  • + Chat-Interface direkt integriert
  • − Nicht headless / nicht serverbar
  • − Proprietär, nicht Open Source

Production-Inference

vLLM

UC Berkeley, Apache-2.0

  • + Hoch performant, PagedAttention
  • + OpenAI-API, Multi-User-tauglich
  • − Setup komplexer als Ollama
  • − Kein integriertes Modell-Management

Faustregel: Wer einen Server mit oder einen Apple-Silicon-Mac hat und schnell produktiv werden will, ist mit in 15 Minuten startklar. llama.cpp ist die richtige Wahl, wenn man tiefe Kontrolle über Inference-Parameter und Quantisierung braucht. LM Studio passt für Einzelplatz-Profis. vLLM lohnt sich bei mehreren Hundert parallelen Anfragen.

Pricing

MIT-Server. Modell-Lizenz separat. Hardware dominiert.

Lizenz

Ollama selbst: MIT — echte OSI-Open-Source-Lizenz für die Server-Software. Die Modelle, die du lädst, haben EIGENE Lizenzen — Llama-Modelle Meta Community Lizenz (NICHT OSI), Mistral/Qwen/Gemma Apache-2.0. Für kommerzielle Nutzung Modell-Lizenz prüfen.

Laufende Kosten

Hardware-dominiert. Mid-Range: RTX 4090 + 32 GB RAM Workstation ab 3.000 €. Premium: Apple Mac Studio M4 Ultra mit 192 GB Unified Memory ab 8.000 € (läuft alles inkl. 70B-Modelle). Strom: ca. 150–300 W bei Inference, idle deutlich weniger.

Aufwand

Ollama installieren: 10 Minuten (Brew, Docker oder Linux-Installer). Erstes Modell ziehen: 5–60 Minuten je nach Größe. Produktives KMU-Setup mit Open WebUI, RAG, Workflow-Anbindung und Mitarbeiter-Schulung: 5–10 Beratungstage.

Wichtig: Anders als bei Caddy oder (Server-Software allein) verschiebt sich bei die Lizenz-Frage auf das Modell-Gewicht. Llama 3.x ist NICHT klassisches Open Source (Meta Community License hat kommerzielle Schranken bei sehr großen Anbietern), Mistral und Qwen sind dagegen Apache-2.0. Für mit unter 700 Mio. monatlich aktiven Nutzern ist auch Llama-Nutzung kommerziell frei.

Modelle pullen + API-Call

# Modelle laden
docker exec ollama ollama pull llama3.3:70b
docker exec ollama ollama pull qwen2.5-coder:32b
docker exec ollama ollama pull llama3.2-vision:11b

# API-Call (OpenAI-kompatibel)
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.3:70b",
    "messages": [
      {"role": "system", "content": "Du bist Maschinenbau-Lastenheft-Experte."},
      {"role": "user", "content": "Extrahiere Anforderungen aus diesem PDF: ..."}
    ],
    "temperature": 0.2
  }'
Drei Befehle bringen ein produktiv nutzbares Setup. API-Call ist drop-in-kompatibel mit OpenAI-Clients — n8n-Nodes, LangChain, Python-OpenAI-SDK funktionieren ohne Anpassung. Quelle: docs.ollama.com.

Ollama als Docker-Container mit GPU-Pass-through

services:
  ollama:
    image: ollama/ollama:0.24.0
    container_name: ollama
    restart: unless-stopped
    ports:
      - 11434:11434
    volumes:
      - ollama_models:/root/.ollama
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    environment:
      - OLLAMA_HOST=0.0.0.0
      - OLLAMA_KEEP_ALIVE=24h
      - OLLAMA_NUM_PARALLEL=4
    networks:
      - ki-backend

volumes:
  ollama_models:

networks:
  ki-backend:
    external: true
Ein Container, der Modelle pullt, vorhält und über OpenAI-kompatible API ausliefert. NVIDIA-Runtime für GPU-Acceleration. Modelle landen im benannten Volume. Quelle: docs.ollama.com, MIT-Lizenz.

Verwandte Themen

Ollama ist die Maschine — was bedient sie?

ist der Inference-Server. Die Bedien-Oberfläche kommt von , Workflows binden an, die ganze Plattform steht im Lösungsblock 'Eigener KI-Server':

Bereit für den nächsten Schritt?

Kostenloses Erstgespräch. Unverbindlich. In 30 Minuten wissen Sie, ob und wie KI Ihrem Unternehmen helfen kann.

Erstgespräch buchenBAFA-Förderung