Open Source AI · Fine-Tuning
Fine-Tuning: Modelle
auf eigenen Kontext anpassen.
Ein Standard-Modell versteht deine Fachsprache nicht, kennt eure Prozesse nicht, trifft nicht euren Ton. Fine-Tuning ändert das — ohne ein Modell von Grund auf zu bauen.
Was ist Fine-Tuning?
Fine-Tuning bedeutet: Du nimmst ein vortrainiertes Modell — zum Beispiel Llama 3, Mistral oder Qwen — und trainierst es auf einem zusätzlichen, domänenspezifischen Datensatz weiter. Das Modell lernt dabei Stil, Terminologie und Domänenwissen aus deinen Beispielen.
Der Unterschied zu RAG: Fine-Tuning ändert die Gewichte des Modells dauerhaft. RAG reicht Dokumente nur zur Laufzeit hinein — das Modell selbst bleibt unverändert. Fine-Tuning ist tiefer, aufwendiger, und die Effekte sind persistenter.
Wichtig zu verstehen: Fine-Tuning ist kein Aus-dem-Nichts-Training. Du nutzt das Wissen eines großen Basis-Modells und passt es an — das ist um Größenordnungen günstiger als ein Modell von Grund auf zu trainieren.
Methoden: Full Fine-Tuning, LoRA, QLoRA
Drei Ansätze mit sehr unterschiedlichen Hardware-Anforderungen und Ergebnissen.
Das Modell wird komplett auf deinen Daten weitertrainiert. Maximale Flexibilität, maximale Anpassung — aber auch maximaler Rechenaufwand. Für ein 70B-Modell brauchst du mehrere A100-GPUs und tagelange Trainingszeit. Kaum praktikabel für die meisten Organisationen.
Hardware: 8x A100 (80GB) oder mehr · Kosten: $500–5.000 · Realistisch: Nur für große Labore
LoRA trainiert nicht alle Gewichte — sondern fügt kleine Adapter-Matrizen ein, die nur einen Bruchteil der Parameter anpassen. Das Ergebnis ist verblüffend nah an Full Fine-Tuning, bei 10–100x weniger Rechenaufwand. LoRA-Adapter sind auch kombinierbar und austauschbar.
Hardware: 1x A100 oder 2–4x RTX 4090 · Kosten: $50–200 Cloud-GPU · Trainingsdauer: Stunden
QLoRA kombiniert LoRA mit Quantisierung — das Modell wird in 4-Bit geladen, was den RAM-Bedarf drastisch senkt. Ein 70B-Modell mit QLoRA läuft auf einem Mac mit 64GB RAM oder einer einzelnen RTX 4090. Leichter Qualitätsverlust gegenüber LoRA, aber praktisch oft vernachlässigbar.
# QLoRA Training mit Unsloth (4x schneller als standard)
from unsloth import FastLanguageModel
model, tokenizer = FastLanguageModel.from_pretrained(
model_name="unsloth/llama-3-8b-bnb-4bit",
max_seq_length=2048,
load_in_4bit=True, # QLoRA
)Hardware: M1 Max 64GB RAM oder RTX 4090 · Kosten: ~$50 Cloud oder 24h lokal · Empfohlen für Einstieg
Tools für Fine-Tuning
Unsloth ist das aktuell schnellste Framework für LoRA und QLoRA. Bis zu 4x schneller als Standard-Implementierungen, 70% weniger GPU-RAM. Unterstützt Llama, Mistral, Qwen, Phi und viele mehr. Ideal für Consumer-Hardware.
Wählen wenn: Einstieg, Consumer-Hardware, maximale Effizienz
Axolotl ist das am häufigsten verwendete Open-Source-Training-Framework in der Community. Vollständig über YAML konfigurierbar, unterstützt alle gängigen Fine-Tuning-Methoden. Gut wenn du reproduzierbare Trainings-Pipelines brauchst.
Wählen wenn: Produktive Trainings-Pipelines, Team-Workflows, Reproduzierbarkeit
TRL (Transformer Reinforcement Learning) ist die Basis-Library für Fine-Tuning im Hugging Face Ökosystem. Unterstützt SFT (Supervised Fine-Tuning), DPO und RLHF. Weniger Abstraktion als Axolotl, mehr Kontrolle.
Wählen wenn: Wenn du RLHF oder DPO brauchst, tief im HF-Ökosystem arbeitest
Was Fine-Tuning kostet
Fine-Tuning ist günstiger als die meisten denken — wenn man die richtigen Methoden nutzt. Die teuerste Variable ist nicht die Cloud-GPU, sondern die Zeit für Daten-Vorbereitung und Iteration.
QLoRA auf 7–8B Modell (Llama, Mistral)
Einstieg: machbar, schnell iterierbar
QLoRA auf 70B Modell (Llama 3.1 70B)
Oder: 24h auf M1 Max mit 64GB RAM
LoRA auf 7–8B (Server-GPU)
Bessere Qualität als QLoRA, mehr RAM
Die wichtigste Erkenntnis zur Datenmenge: Qualität schlägt Quantität. 500 sorgfältig kuratierte Trainings-Beispiele sind besser als 5.000 mittelmäßige. Fine-Tuning mit schlechten Daten verschlechtert das Modell — es lernt auch Fehler und Inkonsistenzen.
“Die Frage ist nicht ob man fine-tunen soll. Die Frage ist ob man überhaupt genug Qualitätsdaten hat um es sinnvoll zu tun.”
— Ralf Kruse
Wann Fine-Tuning — wann nicht?
Das Enterprise-Pattern aus der Praxis (unter anderem von UiPath beschrieben): Starte mit einem Frontier-Modell wie GPT-4 oder Claude. Wenn die Qualität stabil und der Use Case klar ist, migriere auf ein fein-getuntes Open-Weight-Modell. Das spart Kosten und gibt mehr Kontrolle.
Fine-Tuning lohnt sich wenn
- Das Modell einen spezifischen Stil oder Ton braucht
- Fachterminologie konsistent sein muss
- Prompt Engineering nicht mehr ausreicht
- Du 500+ qualitativ hochwertige Beispiele hast
- Der Use Case stabil und wiederholend ist
- RAG-Latenz ein echtes Problem ist
Lieber RAG oder Prompting wenn
- Dokumente sich häufig ändern
- Aktuelles Faktenwissen wichtig ist
- Du weniger als 200 Trainings-Beispiele hast
- Der Use Case noch unklar oder in Flux ist
- Schnell iterieren wichtiger ist als Perfektion
- Quellenangaben gebraucht werden
Weiter im Cluster
Lokal betreiben
Modelle mit Ollama lokal laufen lassen — die Basis bevor du fine-tunst.
Ollama erklärt →Open Source AI
Fine-Tuning konkret evaluieren
Ihr überlegt ob Fine-Tuning für euren Use Case sinnvoll ist? Ich helfe euch bei der Entscheidung — Datenlage, Methode, Make-or-Buy.