Tobias Ludwig
Start
ErstgesprächKontakt
$whoami
Tobias Ludwig
DevOps · Application Manager · Software Engineer
$ls /pages
projekte/kontakt/kalender/impressum/
$git remote
github.com/nexas105
online·next.js 16·hono·postgresql
© 2026 tjl·stay curious_
/blog/KI / AI/lokale-ki-teil-1

Lokale KI – Teil 1: LLMs lokal mit Ollama

Ollama ermöglicht es, LLMs wie Llama, Mistral oder Qwen vollständig lokal zu betreiben — datenschutzkonform, kostenfrei und offline. Teil 1 zeigt Installation, Modellauswahl und API-Anbindung.

16. Juni 20267 min Lesezeit1.533 Wörter
OllamaLLMLokale KISelf-HostingOpen SourceDatenschutzllama.cpp
ReiheLokale KI — was alles gehtTeil 1 / 3
  1. 01Lokale KI – Teil 1: LLMs lokal mit Ollama
  2. 02Lokale KI – Teil 2: Bilder & Audio lokal generieren
  3. 03Lokale KI – Teil 3: Lokale Agenten & Pipelines

Lokale KI ist längst kein Nischenthema mehr für Hardcore-Hacker: Mit modernen Tools wie Ollama kannst du leistungsstarke Sprachmodelle auf deinem eigenen Rechner betreiben — ohne Cloud-Abhängigkeit, ohne Datenschutzbedenken und ohne laufende API-Kosten. Dieser erste Teil der Reihe "Lokale KI – was alles geht" zeigt dir, wie du Ollama installierst, Modelle ziehst und aus eigenem Code ansteuerst.

Voraussetzungen

  • Ein Rechner mit mindestens 8 GB RAM (16 GB empfohlen für komfortable Nutzung)
  • Betriebssystem: Linux, macOS oder Windows 10/11
  • Optional, aber empfohlen: eine NVIDIA- oder AMD-GPU mit aktuellem Treiber
  • Grundkenntnisse im Terminal / der Kommandozeile
  • Python 3.10+ (für die Code-Beispiele im letzten Abschnitt)

Keine Vorkenntnisse in Machine Learning nötig — wir behandeln hier ausschließlich die Anwender-Perspektive.


Was ist Ollama?

Ollama ist ein Open-Source-Tool, das es dir ermöglicht, große Sprachmodelle (LLMs) lokal auf deinem Rechner zu betreiben. Es abstrahiert die gesamte Komplexität hinter einer einfachen CLI und einem HTTP-Server — du musst kein Python-Umfeld aufsetzen, keine CUDA-Bibliotheken manuell konfigurieren und kein Jupyter Notebook öffnen.

Unter der Haube nutzt Ollama llama.cpp als Laufzeitumgebung, die für CPU- und GPU-Inferenz optimiert ist. Das Ergebnis: Modelle laufen überraschend schnell, selbst auf Consumer-Hardware ohne Profi-GPU.

Was Ollama nicht ist: Ein Ersatz für Frontier-Modelle wie Claude 3.5 Sonnet, GPT-4o oder Gemini Ultra. Lokale Open-Source-Modelle sind stark im Codegen, bei strukturierten Aufgaben und in kontrollierten Umgebungen — bei komplexem Reasoning, langen Kontextfenstern oder multimodalen Aufgaben liegen sie aber teils noch deutlich zurück. Betrachte sie als leistungsstarke Ergänzung, nicht als Drop-in-Ersatz.


Installation

Linux

# Offizielle Installations-Script von ollama.com
curl -fsSL https://ollama.com/install.sh | sh

# Danach läuft Ollama als systemd-Service
systemctl status ollama

Das Skript erkennt automatisch vorhandene NVIDIA- oder AMD-GPUs und installiert die nötigen Abhängigkeiten. Für NVIDIA wird CUDA vorausgesetzt — stelle sicher, dass nvidia-smi funktioniert, bevor du die Installation startest.

macOS

# Via Homebrew (empfohlen)
brew install ollama

# Oder direkt als App: https://ollama.com/download/mac
# Start als Hintergrundprozess
ollama serve

Auf Apple Silicon (M1/M2/M3/M4) nutzt Ollama das Metal-Framework für GPU-Beschleunigung — die Performance ist hier oft besser als auf vergleichbarer NVIDIA-Hardware, weil der Unified Memory ohne PCIe-Overhead direkt von CPU und GPU genutzt wird.

Windows

Lade den offiziellen Windows-Installer unter ollama.com/download/windows herunter. Ollama läuft dann als Tray-Applikation und startet den lokalen Server automatisch im Hintergrund. NVIDIA-GPU-Unterstützung ist über den normalen Windows-Grafiktreiber verfügbar; AMD-Support (ROCm) ist unter Windows noch experimentell.

Hinweis: Unter Windows empfiehlt sich WSL2 (Windows Subsystem for Linux) für eine stabilere GPU-Integration, besonders bei AMD-Karten.


Hardware-Anforderungen und Quantisierung

Warum RAM/VRAM so wichtig ist

LLMs sind riesige Gewichtsmatrizen, die vollständig in den Speicher geladen werden müssen, bevor ein einziges Token generiert wird. Die Faustregel: Das Modell muss komplett in VRAM (GPU) oder RAM (CPU) passen. Passt es nicht, "spillt" Ollama automatisch auf RAM bzw. sogar auf die SSD — was die Geschwindigkeit massiv reduziert.

Quantisierung erklärt

Da die meisten Nutzer keine Server-GPUs mit 80 GB VRAM haben, werden Modelle quantisiert: Die Gewichte werden von 16-Bit-Floats auf 4-Bit oder 8-Bit-Integers reduziert. Das spart Speicher auf Kosten einer leichten Qualitätsminderung.

FormatBits pro GewichtQualitätTypische Größe (7B-Modell)
F1616Original~14 GB
Q8_08Sehr gut~7 GB
Q4_K_M4 (mixed)Gut~4,1 GB
Q4_04Akzeptabel~3,8 GB
Q2_K2Eingeschränkt~2,7 GB

Empfehlung für Einsteiger: Starte mit Q4_K_M — das bietet den besten Kompromiss aus Qualität und Speicherverbrauch. Für produktiven Einsatz lohnt sich Q8_0, wenn der Speicher es erlaubt.

Orientierung: Welche Hardware für welche Modelle?

ModellgrößeMindest-RAM (CPU)Empfohlen VRAM (GPU)Beispielmodelle
1–3B4 GB2–4 GBQwen2.5:1.5b, Gemma3:1b
7–8B8 GB6–8 GBLlama3.1:8b, Mistral:7b
13–14B16 GB10–12 GBQwen2.5:14b, Phi-3-medium
32–34B32 GB20–24 GBQwen2.5:32b, Llama3.3:70b (Q2)
70B+64 GB+40–80 GBLlama3.1:70b, Qwen2.5:72b

Modelle ziehen und ausführen

Dein erstes Modell

# Modell herunterladen (einmalig)
ollama pull llama3.2:3b

# Direkt im Terminal chatten
ollama run llama3.2:3b

# Interaktiven Chat beenden
/bye

Modellbibliothek durchsuchen

Die offizielle Bibliothek findest du unter ollama.com/library. Alternativ direkt in der CLI:

# Lokal vorhandene Modelle anzeigen
ollama list

# Modell-Details anzeigen
ollama show llama3.2:3b

# Nicht mehr benötigtes Modell löschen
ollama rm llama3.2:3b

Modellempfehlungen nach Use-Case

Use-CaseEmpfohlenes ModellBegründung
Allgemeiner Chatllama3.1:8bGute Balance, breites Wissen
Coding-Assistentqwen2.5-coder:7bSpeziell für Code optimiert
Deutsch-lastige Texteqwen2.5:7bStarke Mehrsprachigkeit
Schnelle Antwortengemma3:1bMinimal, sehr flott
Komplexes Reasoningqwen2.5:32b (Q4)Braucht viel RAM
Datenschutz + OfflineBeliebigDas ist der Hauptvorteil

Die OpenAI-kompatible API

Ollama startet automatisch einen HTTP-Server auf http://localhost:11434. Dieser Server implementiert die OpenAI-Chat-Completions-API — du kannst damit jede Library oder jedes Tool nutzen, das für die OpenAI-API gebaut wurde.

Per curl testen

# Einfacher Chat-Request
curl http://localhost:11434/api/chat \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.2:3b",
    "messages": [
      {"role": "user", "content": "Erkläre Quantisierung in zwei Sätzen."}
    ],
    "stream": false
  }'

# OpenAI-kompatibler Endpunkt (für Bibliotheken)
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.2:3b",
    "messages": [
      {"role": "system", "content": "Du bist ein hilfreicher Assistent."},
      {"role": "user", "content": "Was ist der Unterschied zwischen RAM und VRAM?"}
    ]
  }'

Aus Python ansprechen

# Variante 1: Via requests (kein zusätzliches Paket nötig)
import requests
import json

def chat(prompt: str, model: str = "llama3.2:3b") -> str:
    response = requests.post(
        "http://localhost:11434/api/chat",
        json={
            "model": model,
            "messages": [{"role": "user", "content": prompt}],
            "stream": False,
        },
    )
    response.raise_for_status()
    return response.json()["message"]["content"]

print(chat("Schreibe eine Python-Funktion, die Fibonacci-Zahlen berechnet."))

# Variante 2: Via openai-Paket (drop-in für OpenAI-Projekte)
# pip install openai
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama",  # Platzhalter, wird nicht geprüft
)

completion = client.chat.completions.create(
    model="llama3.2:3b",
    messages=[
        {"role": "user", "content": "Erkläre mir den Unterschied zwischen Q4 und Q8 Quantisierung."}
    ],
)
print(completion.choices[0].message.content)

Tipp: Variante 2 mit dem openai-Paket ist besonders praktisch, wenn du bestehenden Code von der OpenAI-API auf Ollama migrieren willst — oft reicht es, nur base_url und api_key zu ändern.


Modelfiles: Eigene Modell-Konfigurationen

Mit einem Modelfile kannst du Modelle anpassen — System-Prompts festlegen, Temperatur einstellen oder ein bestehendes Modell als Basis für eine neue Persona nutzen:

# Modelfile erstellen
cat > Modelfile <<'EOF'
FROM llama3.2:3b

SYSTEM """
Du bist ein präziser Code-Review-Assistent.
Antworte immer auf Deutsch.
Weise auf potenzielle Bugs, Sicherheitsprobleme und Verbesserungsmöglichkeiten hin.
"""

PARAMETER temperature 0.3
PARAMETER num_ctx 4096
EOF

# Eigenes Modell bauen
ollama create mein-code-reviewer -f Modelfile

# Starten
ollama run mein-code-reviewer

Häufige Fehler

Fehler 1: Modell lädt extrem langsam / Token-Generierung unter 1 t/s

Das Modell passt nicht in den VRAM und läuft komplett auf der CPU oder sogar auf dem Swap. Lösung: Ein kleineres Modell wählen (z.B. von 13B auf 7B) oder ein stärker quantisiertes Format nutzen (Q4 statt Q8). Mit ollama ps siehst du, wie viel GPU-Speicher gerade genutzt wird.

Fehler 2: Error: model not found

Du versuchst, ein Modell zu starten, das noch nicht gepullt wurde. Lösung: ollama pull <modellname> ausführen. Achte auf den exakten Tag — llama3.2 und llama3.2:3b sind verschiedene Einträge.

Fehler 3: Port 11434 bereits belegt

Eine andere Ollama-Instanz läuft bereits (z.B. als systemd-Service und gleichzeitig manuell gestartet). Lösung: systemctl stop ollama und dann ollama serve manuell starten, oder den laufenden Prozess mit lsof -i :11434 identifizieren.

Fehler 4: NVIDIA-GPU wird nicht erkannt

Häufig liegt das an einem fehlenden oder veralteten CUDA-Treiber. Teste mit nvidia-smi — wenn das nicht funktioniert, funktioniert auch Ollama nicht mit GPU. Mindesttreiberversion für aktuelle CUDA-Versionen: 525+ für CUDA 12.x.

Fehler 5: Qualität enttäuschend trotz "großem" Modell

Open-Source-Modelle mit 7–8B Parametern liegen in der Gesamtqualität unter GPT-4-Klasse-Modellen. Das ist kein Konfigurationsfehler, sondern eine technische Realität. Für komplexe Aufgaben entweder ein 32B+ Modell nutzen (sofern Hardware vorhanden) oder Hybrid-Setups in Betracht ziehen: lokales Modell für einfache Aufgaben, Cloud-API für anspruchsvolle Anfragen.

Fehler 6: Kontextfenster zu klein für lange Dokumente

Standardmäßig nutzen viele Modelle in Ollama einen num_ctx von 2048 Tokens. Für längere Texte muss das beim Start explizit erhöht werden:

ollama run llama3.1:8b --num-ctx 8192

Oder über die API: "options": {"num_ctx": 8192} im Request-Body.


Nächste Schritte

Du hast jetzt Ollama am Laufen, kannst Modelle ziehen, im Terminal chatten und die API aus eigenem Code ansprechen. Das ist die Basis für alles Weitere.

In Teil 2 der Reihe — "Bilder & Audio lokal generieren" — schauen wir uns an, was jenseits von Text möglich ist: Stable Diffusion lokal mit ComfyUI und Automatic1111, Text-to-Speech mit Kokoro und Coqui TTS, sowie Whisper für lokale Sprachtranskription. Ebenfalls auf dem Plan: wie du mehrere lokale KI-Dienste sauber per Docker Compose zusammenführst und über eine einheitliche API erreichbar machst.

Bis dahin lohnt es sich, auf ollama.com/library zu stöbern und verschiedene Modelle für deine Use-Cases zu testen — die Unterschiede zwischen Modellen für denselben Task können überraschend groß sein.

Verwandte Artikel

  • KI / AI· 4 gemeinsame TagsLokale KI – Teil 3: Lokale Agenten & Pipelines
  • KI / AI· 2 gemeinsame TagsDSGVO-konforme KI-Integration: EU-Hosting, On-Premise-LLMs & Datenschutz-Best-Practices
  • KI / AI· 1 gemeinsame TagsLokale KI – Teil 2: Bilder & Audio lokal generieren
  • KI / AI· 1 gemeinsame TagsLLM-Integration in Bestandssysteme — RAG, Caching & Kostenkontrolle
Nächster Teil Lokale KI – Teil 2: Bilder & Audio lokal generieren

Neue Artikel via RSS abonnieren

Inhalt
  • Voraussetzungen
  • Was ist Ollama?
  • Installation
  • Linux
  • macOS
  • Windows
  • Hardware-Anforderungen und Quantisierung
  • Warum RAM/VRAM so wichtig ist
  • Quantisierung erklärt
  • Orientierung: Welche Hardware für welche Modelle?
  • Modelle ziehen und ausführen
  • Dein erstes Modell
  • Modellbibliothek durchsuchen
  • Modellempfehlungen nach Use-Case
  • Die OpenAI-kompatible API
  • Per curl testen
  • Aus Python ansprechen
  • Modelfiles: Eigene Modell-Konfigurationen
  • Häufige Fehler
  • Nächste Schritte
Tags
OllamaLLMLokale KISelf-HostingOpen SourceDatenschutzllama.cpp
RSS-Feed

Neue Artikel im Reader.