Lokale KI – Teil 1: LLMs lokal mit Ollama — Tobias Ludwig

Lokale KI ist längst kein Nischenthema mehr für Hardcore-Hacker: Mit modernen Tools wie Ollama kannst du leistungsstarke Sprachmodelle auf deinem eigenen Rechner betreiben — ohne Cloud-Abhängigkeit, ohne Datenschutzbedenken und ohne laufende API-Kosten. Dieser erste Teil der Reihe "Lokale KI – was alles geht" zeigt dir, wie du Ollama installierst, Modelle ziehst und aus eigenem Code ansteuerst.

Voraussetzungen

Ein Rechner mit mindestens 8 GB RAM (16 GB empfohlen für komfortable Nutzung)
Betriebssystem: Linux, macOS oder Windows 10/11
Optional, aber empfohlen: eine NVIDIA- oder AMD-GPU mit aktuellem Treiber
Grundkenntnisse im Terminal / der Kommandozeile
Python 3.10+ (für die Code-Beispiele im letzten Abschnitt)

Keine Vorkenntnisse in Machine Learning nötig — wir behandeln hier ausschließlich die Anwender-Perspektive.

Was ist Ollama?

Ollama ist ein Open-Source-Tool, das es dir ermöglicht, große Sprachmodelle (LLMs) lokal auf deinem Rechner zu betreiben. Es abstrahiert die gesamte Komplexität hinter einer einfachen CLI und einem HTTP-Server — du musst kein Python-Umfeld aufsetzen, keine CUDA-Bibliotheken manuell konfigurieren und kein Jupyter Notebook öffnen.

Unter der Haube nutzt Ollama llama.cpp als Laufzeitumgebung, die für CPU- und GPU-Inferenz optimiert ist. Das Ergebnis: Modelle laufen überraschend schnell, selbst auf Consumer-Hardware ohne Profi-GPU.

Was Ollama nicht ist: Ein Ersatz für Frontier-Modelle wie Claude 3.5 Sonnet, GPT-4o oder Gemini Ultra. Lokale Open-Source-Modelle sind stark im Codegen, bei strukturierten Aufgaben und in kontrollierten Umgebungen — bei komplexem Reasoning, langen Kontextfenstern oder multimodalen Aufgaben liegen sie aber teils noch deutlich zurück. Betrachte sie als leistungsstarke Ergänzung, nicht als Drop-in-Ersatz.

Installation

Linux

# Offizielle Installations-Script von ollama.com
curl -fsSL https://ollama.com/install.sh | sh

# Danach läuft Ollama als systemd-Service
systemctl status ollama

Das Skript erkennt automatisch vorhandene NVIDIA- oder AMD-GPUs und installiert die nötigen Abhängigkeiten. Für NVIDIA wird CUDA vorausgesetzt — stelle sicher, dass nvidia-smi funktioniert, bevor du die Installation startest.

macOS

# Via Homebrew (empfohlen)
brew install ollama

# Oder direkt als App: https://ollama.com/download/mac
# Start als Hintergrundprozess
ollama serve

Auf Apple Silicon (M1/M2/M3/M4) nutzt Ollama das Metal-Framework für GPU-Beschleunigung — die Performance ist hier oft besser als auf vergleichbarer NVIDIA-Hardware, weil der Unified Memory ohne PCIe-Overhead direkt von CPU und GPU genutzt wird.

Windows

Lade den offiziellen Windows-Installer unter ollama.com/download/windows herunter. Ollama läuft dann als Tray-Applikation und startet den lokalen Server automatisch im Hintergrund. NVIDIA-GPU-Unterstützung ist über den normalen Windows-Grafiktreiber verfügbar; AMD-Support (ROCm) ist unter Windows noch experimentell.

Hinweis: Unter Windows empfiehlt sich WSL2 (Windows Subsystem for Linux) für eine stabilere GPU-Integration, besonders bei AMD-Karten.

Hardware-Anforderungen und Quantisierung

Warum RAM/VRAM so wichtig ist

LLMs sind riesige Gewichtsmatrizen, die vollständig in den Speicher geladen werden müssen, bevor ein einziges Token generiert wird. Die Faustregel: Das Modell muss komplett in VRAM (GPU) oder RAM (CPU) passen. Passt es nicht, "spillt" Ollama automatisch auf RAM bzw. sogar auf die SSD — was die Geschwindigkeit massiv reduziert.

Quantisierung erklärt

Da die meisten Nutzer keine Server-GPUs mit 80 GB VRAM haben, werden Modelle quantisiert: Die Gewichte werden von 16-Bit-Floats auf 4-Bit oder 8-Bit-Integers reduziert. Das spart Speicher auf Kosten einer leichten Qualitätsminderung.

Format	Bits pro Gewicht	Qualität	Typische Größe (7B-Modell)
F16	16	Original	~14 GB
Q8_0	8	Sehr gut	~7 GB
Q4_K_M	4 (mixed)	Gut	~4,1 GB
Q4_0	4	Akzeptabel	~3,8 GB
Q2_K	2	Eingeschränkt	~2,7 GB

Empfehlung für Einsteiger: Starte mit Q4_K_M — das bietet den besten Kompromiss aus Qualität und Speicherverbrauch. Für produktiven Einsatz lohnt sich Q8_0, wenn der Speicher es erlaubt.

Orientierung: Welche Hardware für welche Modelle?

Modellgröße	Mindest-RAM (CPU)	Empfohlen VRAM (GPU)	Beispielmodelle
1–3B	4 GB	2–4 GB	Qwen2.5:1.5b, Gemma3:1b
7–8B	8 GB	6–8 GB	Llama3.1:8b, Mistral:7b
13–14B	16 GB	10–12 GB	Qwen2.5:14b, Phi-3-medium
32–34B	32 GB	20–24 GB	Qwen2.5:32b, Llama3.3:70b (Q2)
70B+	64 GB+	40–80 GB	Llama3.1:70b, Qwen2.5:72b

Modelle ziehen und ausführen

Dein erstes Modell

# Modell herunterladen (einmalig)
ollama pull llama3.2:3b

# Direkt im Terminal chatten
ollama run llama3.2:3b

# Interaktiven Chat beenden
/bye

Modellbibliothek durchsuchen

Die offizielle Bibliothek findest du unter ollama.com/library. Alternativ direkt in der CLI:

# Lokal vorhandene Modelle anzeigen
ollama list

# Modell-Details anzeigen
ollama show llama3.2:3b

# Nicht mehr benötigtes Modell löschen
ollama rm llama3.2:3b

Modellempfehlungen nach Use-Case

Use-Case	Empfohlenes Modell	Begründung
Allgemeiner Chat	`llama3.1:8b`	Gute Balance, breites Wissen
Coding-Assistent	`qwen2.5-coder:7b`	Speziell für Code optimiert
Deutsch-lastige Texte	`qwen2.5:7b`	Starke Mehrsprachigkeit
Schnelle Antworten	`gemma3:1b`	Minimal, sehr flott
Komplexes Reasoning	`qwen2.5:32b` (Q4)	Braucht viel RAM
Datenschutz + Offline	Beliebig	Das ist der Hauptvorteil

Die OpenAI-kompatible API

Ollama startet automatisch einen HTTP-Server auf http://localhost:11434. Dieser Server implementiert die OpenAI-Chat-Completions-API — du kannst damit jede Library oder jedes Tool nutzen, das für die OpenAI-API gebaut wurde.

Per curl testen

# Einfacher Chat-Request
curl http://localhost:11434/api/chat \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.2:3b",
    "messages": [
      {"role": "user", "content": "Erkläre Quantisierung in zwei Sätzen."}
    ],
    "stream": false
  }'

# OpenAI-kompatibler Endpunkt (für Bibliotheken)
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.2:3b",
    "messages": [
      {"role": "system", "content": "Du bist ein hilfreicher Assistent."},
      {"role": "user", "content": "Was ist der Unterschied zwischen RAM und VRAM?"}
    ]
  }'

Aus Python ansprechen

# Variante 1: Via requests (kein zusätzliches Paket nötig)
import requests
import json

def chat(prompt: str, model: str = "llama3.2:3b") -> str:
    response = requests.post(
        "http://localhost:11434/api/chat",
        json={
            "model": model,
            "messages": [{"role": "user", "content": prompt}],
            "stream": False,
        },
    )
    response.raise_for_status()
    return response.json()["message"]["content"]

print(chat("Schreibe eine Python-Funktion, die Fibonacci-Zahlen berechnet."))

# Variante 2: Via openai-Paket (drop-in für OpenAI-Projekte)
# pip install openai
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama",  # Platzhalter, wird nicht geprüft
)

completion = client.chat.completions.create(
    model="llama3.2:3b",
    messages=[
        {"role": "user", "content": "Erkläre mir den Unterschied zwischen Q4 und Q8 Quantisierung."}
    ],
)
print(completion.choices[0].message.content)

Tipp: Variante 2 mit dem openai-Paket ist besonders praktisch, wenn du bestehenden Code von der OpenAI-API auf Ollama migrieren willst — oft reicht es, nur base_url und api_key zu ändern.

Modelfiles: Eigene Modell-Konfigurationen

Mit einem Modelfile kannst du Modelle anpassen — System-Prompts festlegen, Temperatur einstellen oder ein bestehendes Modell als Basis für eine neue Persona nutzen:

# Modelfile erstellen
cat > Modelfile <<'EOF'
FROM llama3.2:3b

SYSTEM """
Du bist ein präziser Code-Review-Assistent.
Antworte immer auf Deutsch.
Weise auf potenzielle Bugs, Sicherheitsprobleme und Verbesserungsmöglichkeiten hin.
"""

PARAMETER temperature 0.3
PARAMETER num_ctx 4096
EOF

# Eigenes Modell bauen
ollama create mein-code-reviewer -f Modelfile

# Starten
ollama run mein-code-reviewer

Häufige Fehler

Fehler 1: Modell lädt extrem langsam / Token-Generierung unter 1 t/s

Das Modell passt nicht in den VRAM und läuft komplett auf der CPU oder sogar auf dem Swap. Lösung: Ein kleineres Modell wählen (z.B. von 13B auf 7B) oder ein stärker quantisiertes Format nutzen (Q4 statt Q8). Mit ollama ps siehst du, wie viel GPU-Speicher gerade genutzt wird.

Fehler 2: Error: model not found

Du versuchst, ein Modell zu starten, das noch nicht gepullt wurde. Lösung: ollama pull <modellname> ausführen. Achte auf den exakten Tag — llama3.2 und llama3.2:3b sind verschiedene Einträge.

Fehler 3: Port 11434 bereits belegt

Eine andere Ollama-Instanz läuft bereits (z.B. als systemd-Service und gleichzeitig manuell gestartet). Lösung: systemctl stop ollama und dann ollama serve manuell starten, oder den laufenden Prozess mit lsof -i :11434 identifizieren.

Fehler 4: NVIDIA-GPU wird nicht erkannt

Häufig liegt das an einem fehlenden oder veralteten CUDA-Treiber. Teste mit nvidia-smi — wenn das nicht funktioniert, funktioniert auch Ollama nicht mit GPU. Mindesttreiberversion für aktuelle CUDA-Versionen: 525+ für CUDA 12.x.

Fehler 5: Qualität enttäuschend trotz "großem" Modell

Open-Source-Modelle mit 7–8B Parametern liegen in der Gesamtqualität unter GPT-4-Klasse-Modellen. Das ist kein Konfigurationsfehler, sondern eine technische Realität. Für komplexe Aufgaben entweder ein 32B+ Modell nutzen (sofern Hardware vorhanden) oder Hybrid-Setups in Betracht ziehen: lokales Modell für einfache Aufgaben, Cloud-API für anspruchsvolle Anfragen.

Fehler 6: Kontextfenster zu klein für lange Dokumente

Standardmäßig nutzen viele Modelle in Ollama einen num_ctx von 2048 Tokens. Für längere Texte muss das beim Start explizit erhöht werden:

ollama run llama3.1:8b --num-ctx 8192

Oder über die API: "options": {"num_ctx": 8192} im Request-Body.

Nächste Schritte

Du hast jetzt Ollama am Laufen, kannst Modelle ziehen, im Terminal chatten und die API aus eigenem Code ansprechen. Das ist die Basis für alles Weitere.

In Teil 2 der Reihe — "Bilder & Audio lokal generieren" — schauen wir uns an, was jenseits von Text möglich ist: Stable Diffusion lokal mit ComfyUI und Automatic1111, Text-to-Speech mit Kokoro und Coqui TTS, sowie Whisper für lokale Sprachtranskription. Ebenfalls auf dem Plan: wie du mehrere lokale KI-Dienste sauber per Docker Compose zusammenführst und über eine einheitliche API erreichbar machst.

Bis dahin lohnt es sich, auf ollama.com/library zu stöbern und verschiedene Modelle für deine Use-Cases zu testen — die Unterschiede zwischen Modellen für denselben Task können überraschend groß sein.

Voraussetzungen

Ein Rechner mit mindestens 8 GB RAM (16 GB empfohlen für komfortable Nutzung)
Betriebssystem: Linux, macOS oder Windows 10/11
Optional, aber empfohlen: eine NVIDIA- oder AMD-GPU mit aktuellem Treiber
Grundkenntnisse im Terminal / der Kommandozeile
Python 3.10+ (für die Code-Beispiele im letzten Abschnitt)

Keine Vorkenntnisse in Machine Learning nötig — wir behandeln hier ausschließlich die Anwender-Perspektive.

Was ist Ollama?

Installation

Linux

# Offizielle Installations-Script von ollama.com
curl -fsSL https://ollama.com/install.sh | sh

# Danach läuft Ollama als systemd-Service
systemctl status ollama

macOS

# Via Homebrew (empfohlen)
brew install ollama

# Oder direkt als App: https://ollama.com/download/mac
# Start als Hintergrundprozess
ollama serve

Windows

Hinweis: Unter Windows empfiehlt sich WSL2 (Windows Subsystem for Linux) für eine stabilere GPU-Integration, besonders bei AMD-Karten.

Hardware-Anforderungen und Quantisierung

Warum RAM/VRAM so wichtig ist

Quantisierung erklärt

Format	Bits pro Gewicht	Qualität	Typische Größe (7B-Modell)
F16	16	Original	~14 GB
Q8_0	8	Sehr gut	~7 GB
Q4_K_M	4 (mixed)	Gut	~4,1 GB
Q4_0	4	Akzeptabel	~3,8 GB
Q2_K	2	Eingeschränkt	~2,7 GB

Empfehlung für Einsteiger: Starte mit Q4_K_M — das bietet den besten Kompromiss aus Qualität und Speicherverbrauch. Für produktiven Einsatz lohnt sich Q8_0, wenn der Speicher es erlaubt.

Orientierung: Welche Hardware für welche Modelle?

Modellgröße	Mindest-RAM (CPU)	Empfohlen VRAM (GPU)	Beispielmodelle
1–3B	4 GB	2–4 GB	Qwen2.5:1.5b, Gemma3:1b
7–8B	8 GB	6–8 GB	Llama3.1:8b, Mistral:7b
13–14B	16 GB	10–12 GB	Qwen2.5:14b, Phi-3-medium
32–34B	32 GB	20–24 GB	Qwen2.5:32b, Llama3.3:70b (Q2)
70B+	64 GB+	40–80 GB	Llama3.1:70b, Qwen2.5:72b

Modelle ziehen und ausführen

Dein erstes Modell

# Modell herunterladen (einmalig)
ollama pull llama3.2:3b

# Direkt im Terminal chatten
ollama run llama3.2:3b

# Interaktiven Chat beenden
/bye

Modellbibliothek durchsuchen

Die offizielle Bibliothek findest du unter ollama.com/library. Alternativ direkt in der CLI:

# Lokal vorhandene Modelle anzeigen
ollama list

# Modell-Details anzeigen
ollama show llama3.2:3b

# Nicht mehr benötigtes Modell löschen
ollama rm llama3.2:3b

Modellempfehlungen nach Use-Case

Use-Case	Empfohlenes Modell	Begründung
Allgemeiner Chat	`llama3.1:8b`	Gute Balance, breites Wissen
Coding-Assistent	`qwen2.5-coder:7b`	Speziell für Code optimiert
Deutsch-lastige Texte	`qwen2.5:7b`	Starke Mehrsprachigkeit
Schnelle Antworten	`gemma3:1b`	Minimal, sehr flott
Komplexes Reasoning	`qwen2.5:32b` (Q4)	Braucht viel RAM
Datenschutz + Offline	Beliebig	Das ist der Hauptvorteil

Die OpenAI-kompatible API

Per curl testen

# Einfacher Chat-Request
curl http://localhost:11434/api/chat \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.2:3b",
    "messages": [
      {"role": "user", "content": "Erkläre Quantisierung in zwei Sätzen."}
    ],
    "stream": false
  }'

# OpenAI-kompatibler Endpunkt (für Bibliotheken)
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.2:3b",
    "messages": [
      {"role": "system", "content": "Du bist ein hilfreicher Assistent."},
      {"role": "user", "content": "Was ist der Unterschied zwischen RAM und VRAM?"}
    ]
  }'

Aus Python ansprechen

# Variante 1: Via requests (kein zusätzliches Paket nötig)
import requests
import json

def chat(prompt: str, model: str = "llama3.2:3b") -> str:
    response = requests.post(
        "http://localhost:11434/api/chat",
        json={
            "model": model,
            "messages": [{"role": "user", "content": prompt}],
            "stream": False,
        },
    )
    response.raise_for_status()
    return response.json()["message"]["content"]

print(chat("Schreibe eine Python-Funktion, die Fibonacci-Zahlen berechnet."))

# Variante 2: Via openai-Paket (drop-in für OpenAI-Projekte)
# pip install openai
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama",  # Platzhalter, wird nicht geprüft
)

completion = client.chat.completions.create(
    model="llama3.2:3b",
    messages=[
        {"role": "user", "content": "Erkläre mir den Unterschied zwischen Q4 und Q8 Quantisierung."}
    ],
)
print(completion.choices[0].message.content)

Tipp: Variante 2 mit dem openai-Paket ist besonders praktisch, wenn du bestehenden Code von der OpenAI-API auf Ollama migrieren willst — oft reicht es, nur base_url und api_key zu ändern.

Modelfiles: Eigene Modell-Konfigurationen

Mit einem Modelfile kannst du Modelle anpassen — System-Prompts festlegen, Temperatur einstellen oder ein bestehendes Modell als Basis für eine neue Persona nutzen:

# Modelfile erstellen
cat > Modelfile <<'EOF'
FROM llama3.2:3b

SYSTEM """
Du bist ein präziser Code-Review-Assistent.
Antworte immer auf Deutsch.
Weise auf potenzielle Bugs, Sicherheitsprobleme und Verbesserungsmöglichkeiten hin.
"""

PARAMETER temperature 0.3
PARAMETER num_ctx 4096
EOF

# Eigenes Modell bauen
ollama create mein-code-reviewer -f Modelfile

# Starten
ollama run mein-code-reviewer

Häufige Fehler

Fehler 1: Modell lädt extrem langsam / Token-Generierung unter 1 t/s

Fehler 2: Error: model not found

Fehler 3: Port 11434 bereits belegt

Fehler 4: NVIDIA-GPU wird nicht erkannt

Fehler 5: Qualität enttäuschend trotz "großem" Modell

Fehler 6: Kontextfenster zu klein für lange Dokumente

Standardmäßig nutzen viele Modelle in Ollama einen num_ctx von 2048 Tokens. Für längere Texte muss das beim Start explizit erhöht werden:

ollama run llama3.1:8b --num-ctx 8192

Oder über die API: "options": {"num_ctx": 8192} im Request-Body.

Nächste Schritte

Du hast jetzt Ollama am Laufen, kannst Modelle ziehen, im Terminal chatten und die API aus eigenem Code ansprechen. Das ist die Basis für alles Weitere.

Voraussetzungen

Was ist Ollama?

Installation

Linux

macOS

Windows

Hardware-Anforderungen und Quantisierung

Warum RAM/VRAM so wichtig ist

Quantisierung erklärt

Orientierung: Welche Hardware für welche Modelle?

Modelle ziehen und ausführen

Dein erstes Modell

Modellbibliothek durchsuchen

Modellempfehlungen nach Use-Case

Die OpenAI-kompatible API

Per curl testen

Aus Python ansprechen

Modelfiles: Eigene Modell-Konfigurationen

Häufige Fehler

Nächste Schritte

Verwandte Artikel

Voraussetzungen

Was ist Ollama?

Installation

Linux

macOS

Windows

Hardware-Anforderungen und Quantisierung

Warum RAM/VRAM so wichtig ist

Quantisierung erklärt

Orientierung: Welche Hardware für welche Modelle?

Modelle ziehen und ausführen

Dein erstes Modell

Modellbibliothek durchsuchen

Modellempfehlungen nach Use-Case

Die OpenAI-kompatible API

Per curl testen

Aus Python ansprechen

Modelfiles: Eigene Modell-Konfigurationen

Häufige Fehler

Nächste Schritte

Verwandte Artikel