Lokale KI ist längst kein Nischenthema mehr für Hardcore-Hacker: Mit modernen Tools wie Ollama kannst du leistungsstarke Sprachmodelle auf deinem eigenen Rechner betreiben — ohne Cloud-Abhängigkeit, ohne Datenschutzbedenken und ohne laufende API-Kosten. Dieser erste Teil der Reihe "Lokale KI – was alles geht" zeigt dir, wie du Ollama installierst, Modelle ziehst und aus eigenem Code ansteuerst.
Voraussetzungen
- Ein Rechner mit mindestens 8 GB RAM (16 GB empfohlen für komfortable Nutzung)
- Betriebssystem: Linux, macOS oder Windows 10/11
- Optional, aber empfohlen: eine NVIDIA- oder AMD-GPU mit aktuellem Treiber
- Grundkenntnisse im Terminal / der Kommandozeile
- Python 3.10+ (für die Code-Beispiele im letzten Abschnitt)
Keine Vorkenntnisse in Machine Learning nötig — wir behandeln hier ausschließlich die Anwender-Perspektive.
Was ist Ollama?
Ollama ist ein Open-Source-Tool, das es dir ermöglicht, große Sprachmodelle (LLMs) lokal auf deinem Rechner zu betreiben. Es abstrahiert die gesamte Komplexität hinter einer einfachen CLI und einem HTTP-Server — du musst kein Python-Umfeld aufsetzen, keine CUDA-Bibliotheken manuell konfigurieren und kein Jupyter Notebook öffnen.
Unter der Haube nutzt Ollama llama.cpp als Laufzeitumgebung, die für CPU- und GPU-Inferenz optimiert ist. Das Ergebnis: Modelle laufen überraschend schnell, selbst auf Consumer-Hardware ohne Profi-GPU.
Was Ollama nicht ist: Ein Ersatz für Frontier-Modelle wie Claude 3.5 Sonnet, GPT-4o oder Gemini Ultra. Lokale Open-Source-Modelle sind stark im Codegen, bei strukturierten Aufgaben und in kontrollierten Umgebungen — bei komplexem Reasoning, langen Kontextfenstern oder multimodalen Aufgaben liegen sie aber teils noch deutlich zurück. Betrachte sie als leistungsstarke Ergänzung, nicht als Drop-in-Ersatz.
Installation
Linux
# Offizielle Installations-Script von ollama.com
curl -fsSL https://ollama.com/install.sh | sh
# Danach läuft Ollama als systemd-Service
systemctl status ollama
Das Skript erkennt automatisch vorhandene NVIDIA- oder AMD-GPUs und installiert die nötigen Abhängigkeiten. Für NVIDIA wird CUDA vorausgesetzt — stelle sicher, dass nvidia-smi funktioniert, bevor du die Installation startest.
macOS
# Via Homebrew (empfohlen)
brew install ollama
# Oder direkt als App: https://ollama.com/download/mac
# Start als Hintergrundprozess
ollama serve
Auf Apple Silicon (M1/M2/M3/M4) nutzt Ollama das Metal-Framework für GPU-Beschleunigung — die Performance ist hier oft besser als auf vergleichbarer NVIDIA-Hardware, weil der Unified Memory ohne PCIe-Overhead direkt von CPU und GPU genutzt wird.
Windows
Lade den offiziellen Windows-Installer unter ollama.com/download/windows herunter. Ollama läuft dann als Tray-Applikation und startet den lokalen Server automatisch im Hintergrund. NVIDIA-GPU-Unterstützung ist über den normalen Windows-Grafiktreiber verfügbar; AMD-Support (ROCm) ist unter Windows noch experimentell.
Hinweis: Unter Windows empfiehlt sich WSL2 (Windows Subsystem for Linux) für eine stabilere GPU-Integration, besonders bei AMD-Karten.
Hardware-Anforderungen und Quantisierung
Warum RAM/VRAM so wichtig ist
LLMs sind riesige Gewichtsmatrizen, die vollständig in den Speicher geladen werden müssen, bevor ein einziges Token generiert wird. Die Faustregel: Das Modell muss komplett in VRAM (GPU) oder RAM (CPU) passen. Passt es nicht, "spillt" Ollama automatisch auf RAM bzw. sogar auf die SSD — was die Geschwindigkeit massiv reduziert.
Quantisierung erklärt
Da die meisten Nutzer keine Server-GPUs mit 80 GB VRAM haben, werden Modelle quantisiert: Die Gewichte werden von 16-Bit-Floats auf 4-Bit oder 8-Bit-Integers reduziert. Das spart Speicher auf Kosten einer leichten Qualitätsminderung.
| Format | Bits pro Gewicht | Qualität | Typische Größe (7B-Modell) |
|---|---|---|---|
| F16 | 16 | Original | ~14 GB |
| Q8_0 | 8 | Sehr gut | ~7 GB |
| Q4_K_M | 4 (mixed) | Gut | ~4,1 GB |
| Q4_0 | 4 | Akzeptabel | ~3,8 GB |
| Q2_K | 2 | Eingeschränkt | ~2,7 GB |
Empfehlung für Einsteiger: Starte mit Q4_K_M — das bietet den besten Kompromiss aus Qualität und Speicherverbrauch. Für produktiven Einsatz lohnt sich Q8_0, wenn der Speicher es erlaubt.
Orientierung: Welche Hardware für welche Modelle?
| Modellgröße | Mindest-RAM (CPU) | Empfohlen VRAM (GPU) | Beispielmodelle |
|---|---|---|---|
| 1–3B | 4 GB | 2–4 GB | Qwen2.5:1.5b, Gemma3:1b |
| 7–8B | 8 GB | 6–8 GB | Llama3.1:8b, Mistral:7b |
| 13–14B | 16 GB | 10–12 GB | Qwen2.5:14b, Phi-3-medium |
| 32–34B | 32 GB | 20–24 GB | Qwen2.5:32b, Llama3.3:70b (Q2) |
| 70B+ | 64 GB+ | 40–80 GB | Llama3.1:70b, Qwen2.5:72b |
Modelle ziehen und ausführen
Dein erstes Modell
# Modell herunterladen (einmalig)
ollama pull llama3.2:3b
# Direkt im Terminal chatten
ollama run llama3.2:3b
# Interaktiven Chat beenden
/bye
Modellbibliothek durchsuchen
Die offizielle Bibliothek findest du unter ollama.com/library. Alternativ direkt in der CLI:
# Lokal vorhandene Modelle anzeigen
ollama list
# Modell-Details anzeigen
ollama show llama3.2:3b
# Nicht mehr benötigtes Modell löschen
ollama rm llama3.2:3b
Modellempfehlungen nach Use-Case
| Use-Case | Empfohlenes Modell | Begründung |
|---|---|---|
| Allgemeiner Chat | llama3.1:8b | Gute Balance, breites Wissen |
| Coding-Assistent | qwen2.5-coder:7b | Speziell für Code optimiert |
| Deutsch-lastige Texte | qwen2.5:7b | Starke Mehrsprachigkeit |
| Schnelle Antworten | gemma3:1b | Minimal, sehr flott |
| Komplexes Reasoning | qwen2.5:32b (Q4) | Braucht viel RAM |
| Datenschutz + Offline | Beliebig | Das ist der Hauptvorteil |
Die OpenAI-kompatible API
Ollama startet automatisch einen HTTP-Server auf http://localhost:11434. Dieser Server implementiert die OpenAI-Chat-Completions-API — du kannst damit jede Library oder jedes Tool nutzen, das für die OpenAI-API gebaut wurde.
Per curl testen
# Einfacher Chat-Request
curl http://localhost:11434/api/chat \
-H "Content-Type: application/json" \
-d '{
"model": "llama3.2:3b",
"messages": [
{"role": "user", "content": "Erkläre Quantisierung in zwei Sätzen."}
],
"stream": false
}'
# OpenAI-kompatibler Endpunkt (für Bibliotheken)
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "llama3.2:3b",
"messages": [
{"role": "system", "content": "Du bist ein hilfreicher Assistent."},
{"role": "user", "content": "Was ist der Unterschied zwischen RAM und VRAM?"}
]
}'
Aus Python ansprechen
# Variante 1: Via requests (kein zusätzliches Paket nötig)
import requests
import json
def chat(prompt: str, model: str = "llama3.2:3b") -> str:
response = requests.post(
"http://localhost:11434/api/chat",
json={
"model": model,
"messages": [{"role": "user", "content": prompt}],
"stream": False,
},
)
response.raise_for_status()
return response.json()["message"]["content"]
print(chat("Schreibe eine Python-Funktion, die Fibonacci-Zahlen berechnet."))
# Variante 2: Via openai-Paket (drop-in für OpenAI-Projekte)
# pip install openai
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama", # Platzhalter, wird nicht geprüft
)
completion = client.chat.completions.create(
model="llama3.2:3b",
messages=[
{"role": "user", "content": "Erkläre mir den Unterschied zwischen Q4 und Q8 Quantisierung."}
],
)
print(completion.choices[0].message.content)
Tipp: Variante 2 mit dem
openai-Paket ist besonders praktisch, wenn du bestehenden Code von der OpenAI-API auf Ollama migrieren willst — oft reicht es, nurbase_urlundapi_keyzu ändern.
Modelfiles: Eigene Modell-Konfigurationen
Mit einem Modelfile kannst du Modelle anpassen — System-Prompts festlegen, Temperatur einstellen oder ein bestehendes Modell als Basis für eine neue Persona nutzen:
# Modelfile erstellen
cat > Modelfile <<'EOF'
FROM llama3.2:3b
SYSTEM """
Du bist ein präziser Code-Review-Assistent.
Antworte immer auf Deutsch.
Weise auf potenzielle Bugs, Sicherheitsprobleme und Verbesserungsmöglichkeiten hin.
"""
PARAMETER temperature 0.3
PARAMETER num_ctx 4096
EOF
# Eigenes Modell bauen
ollama create mein-code-reviewer -f Modelfile
# Starten
ollama run mein-code-reviewer
Häufige Fehler
Fehler 1: Modell lädt extrem langsam / Token-Generierung unter 1 t/s
Das Modell passt nicht in den VRAM und läuft komplett auf der CPU oder sogar auf dem Swap. Lösung: Ein kleineres Modell wählen (z.B. von 13B auf 7B) oder ein stärker quantisiertes Format nutzen (Q4 statt Q8). Mit ollama ps siehst du, wie viel GPU-Speicher gerade genutzt wird.
Fehler 2: Error: model not found
Du versuchst, ein Modell zu starten, das noch nicht gepullt wurde. Lösung: ollama pull <modellname> ausführen. Achte auf den exakten Tag — llama3.2 und llama3.2:3b sind verschiedene Einträge.
Fehler 3: Port 11434 bereits belegt
Eine andere Ollama-Instanz läuft bereits (z.B. als systemd-Service und gleichzeitig manuell gestartet). Lösung: systemctl stop ollama und dann ollama serve manuell starten, oder den laufenden Prozess mit lsof -i :11434 identifizieren.
Fehler 4: NVIDIA-GPU wird nicht erkannt
Häufig liegt das an einem fehlenden oder veralteten CUDA-Treiber. Teste mit nvidia-smi — wenn das nicht funktioniert, funktioniert auch Ollama nicht mit GPU. Mindesttreiberversion für aktuelle CUDA-Versionen: 525+ für CUDA 12.x.
Fehler 5: Qualität enttäuschend trotz "großem" Modell
Open-Source-Modelle mit 7–8B Parametern liegen in der Gesamtqualität unter GPT-4-Klasse-Modellen. Das ist kein Konfigurationsfehler, sondern eine technische Realität. Für komplexe Aufgaben entweder ein 32B+ Modell nutzen (sofern Hardware vorhanden) oder Hybrid-Setups in Betracht ziehen: lokales Modell für einfache Aufgaben, Cloud-API für anspruchsvolle Anfragen.
Fehler 6: Kontextfenster zu klein für lange Dokumente
Standardmäßig nutzen viele Modelle in Ollama einen num_ctx von 2048 Tokens. Für längere Texte muss das beim Start explizit erhöht werden:
ollama run llama3.1:8b --num-ctx 8192
Oder über die API: "options": {"num_ctx": 8192} im Request-Body.
Nächste Schritte
Du hast jetzt Ollama am Laufen, kannst Modelle ziehen, im Terminal chatten und die API aus eigenem Code ansprechen. Das ist die Basis für alles Weitere.
In Teil 2 der Reihe — "Bilder & Audio lokal generieren" — schauen wir uns an, was jenseits von Text möglich ist: Stable Diffusion lokal mit ComfyUI und Automatic1111, Text-to-Speech mit Kokoro und Coqui TTS, sowie Whisper für lokale Sprachtranskription. Ebenfalls auf dem Plan: wie du mehrere lokale KI-Dienste sauber per Docker Compose zusammenführst und über eine einheitliche API erreichbar machst.
Bis dahin lohnt es sich, auf ollama.com/library zu stöbern und verschiedene Modelle für deine Use-Cases zu testen — die Unterschiede zwischen Modellen für denselben Task können überraschend groß sein.
Verwandte Artikel
- KI / AI· 4 gemeinsame TagsLokale KI – Teil 3: Lokale Agenten & Pipelines
- KI / AI· 2 gemeinsame TagsDSGVO-konforme KI-Integration: EU-Hosting, On-Premise-LLMs & Datenschutz-Best-Practices
- KI / AI· 1 gemeinsame TagsLokale KI – Teil 2: Bilder & Audio lokal generieren
- KI / AI· 1 gemeinsame TagsLLM-Integration in Bestandssysteme — RAG, Caching & Kostenkontrolle