Open Source AI · Fine-Tuning

Fine-Tuning: Modelle
auf eigenen Kontext anpassen.

Ein Standard-Modell versteht deine Fachsprache nicht, kennt eure Prozesse nicht, trifft nicht euren Ton. Fine-Tuning ändert das — ohne ein Modell von Grund auf zu bauen.

Was ist Fine-Tuning?

Fine-Tuning bedeutet: Du nimmst ein vortrainiertes Modell — zum Beispiel Llama 3, Mistral oder Qwen — und trainierst es auf einem zusätzlichen, domänenspezifischen Datensatz weiter. Das Modell lernt dabei Stil, Terminologie und Domänenwissen aus deinen Beispielen.

Der Unterschied zu RAG: Fine-Tuning ändert die Gewichte des Modells dauerhaft. RAG reicht Dokumente nur zur Laufzeit hinein — das Modell selbst bleibt unverändert. Fine-Tuning ist tiefer, aufwendiger, und die Effekte sind persistenter.

Wichtig zu verstehen: Fine-Tuning ist kein Aus-dem-Nichts-Training. Du nutzt das Wissen eines großen Basis-Modells und passt es an — das ist um Größenordnungen günstiger als ein Modell von Grund auf zu trainieren.

Methoden: Full Fine-Tuning, LoRA, QLoRA

Drei Ansätze mit sehr unterschiedlichen Hardware-Anforderungen und Ergebnissen.

Full Fine-TuningAlle Gewichte werden angepasst

Das Modell wird komplett auf deinen Daten weitertrainiert. Maximale Flexibilität, maximale Anpassung — aber auch maximaler Rechenaufwand. Für ein 70B-Modell brauchst du mehrere A100-GPUs und tagelange Trainingszeit. Kaum praktikabel für die meisten Organisationen.

Hardware: 8x A100 (80GB) oder mehr · Kosten: $500–5.000 · Realistisch: Nur für große Labore

LoRALow-Rank Adaptation · Empfohlen

LoRA trainiert nicht alle Gewichte — sondern fügt kleine Adapter-Matrizen ein, die nur einen Bruchteil der Parameter anpassen. Das Ergebnis ist verblüffend nah an Full Fine-Tuning, bei 10–100x weniger Rechenaufwand. LoRA-Adapter sind auch kombinierbar und austauschbar.

Hardware: 1x A100 oder 2–4x RTX 4090 · Kosten: $50–200 Cloud-GPU · Trainingsdauer: Stunden

QLoRAQuantisiertes LoRA · Consumer-Hardware möglich

QLoRA kombiniert LoRA mit Quantisierung — das Modell wird in 4-Bit geladen, was den RAM-Bedarf drastisch senkt. Ein 70B-Modell mit QLoRA läuft auf einem Mac mit 64GB RAM oder einer einzelnen RTX 4090. Leichter Qualitätsverlust gegenüber LoRA, aber praktisch oft vernachlässigbar.

# QLoRA Training mit Unsloth (4x schneller als standard)
from unsloth import FastLanguageModel

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="unsloth/llama-3-8b-bnb-4bit",
    max_seq_length=2048,
    load_in_4bit=True,  # QLoRA
)

Hardware: M1 Max 64GB RAM oder RTX 4090 · Kosten: ~$50 Cloud oder 24h lokal · Empfohlen für Einstieg

Tools für Fine-Tuning

UnslothSchnellstes LoRA/QLoRA · Open Source

Unsloth ist das aktuell schnellste Framework für LoRA und QLoRA. Bis zu 4x schneller als Standard-Implementierungen, 70% weniger GPU-RAM. Unterstützt Llama, Mistral, Qwen, Phi und viele mehr. Ideal für Consumer-Hardware.

Wählen wenn: Einstieg, Consumer-Hardware, maximale Effizienz

AxolotlFlexibel · YAML-konfigurierbar

Axolotl ist das am häufigsten verwendete Open-Source-Training-Framework in der Community. Vollständig über YAML konfigurierbar, unterstützt alle gängigen Fine-Tuning-Methoden. Gut wenn du reproduzierbare Trainings-Pipelines brauchst.

Wählen wenn: Produktive Trainings-Pipelines, Team-Workflows, Reproduzierbarkeit

Hugging Face TRLTraining mit RLHF-Unterstützung

TRL (Transformer Reinforcement Learning) ist die Basis-Library für Fine-Tuning im Hugging Face Ökosystem. Unterstützt SFT (Supervised Fine-Tuning), DPO und RLHF. Weniger Abstraktion als Axolotl, mehr Kontrolle.

Wählen wenn: Wenn du RLHF oder DPO brauchst, tief im HF-Ökosystem arbeitest

Was Fine-Tuning kostet

Fine-Tuning ist günstiger als die meisten denken — wenn man die richtigen Methoden nutzt. Die teuerste Variable ist nicht die Cloud-GPU, sondern die Zeit für Daten-Vorbereitung und Iteration.

QLoRA auf 7–8B Modell (Llama, Mistral)

Compute-Kosten~$10–30 auf RunPod oder Modal

Trainingsdaten500–1.000 Trainings-Beispiele

Trainingszeit2–4 Stunden Training

Einstieg: machbar, schnell iterierbar

QLoRA auf 70B Modell (Llama 3.1 70B)

Compute-Kosten~$50–200 auf Cloud-GPU

Trainingsdaten1.000–5.000 hochwertige Beispiele

Trainingszeit8–24 Stunden Training

Oder: 24h auf M1 Max mit 64GB RAM

LoRA auf 7–8B (Server-GPU)

Compute-Kosten~$20–50

Trainingsdaten500–2.000 Beispiele

Trainingszeit1–3 Stunden

Bessere Qualität als QLoRA, mehr RAM

Die wichtigste Erkenntnis zur Datenmenge: Qualität schlägt Quantität. 500 sorgfältig kuratierte Trainings-Beispiele sind besser als 5.000 mittelmäßige. Fine-Tuning mit schlechten Daten verschlechtert das Modell — es lernt auch Fehler und Inkonsistenzen.

“Die Frage ist nicht ob man fine-tunen soll. Die Frage ist ob man überhaupt genug Qualitätsdaten hat um es sinnvoll zu tun.”
— Ralf Kruse

Wann Fine-Tuning — wann nicht?

Das Enterprise-Pattern aus der Praxis (unter anderem von UiPath beschrieben): Starte mit einem Frontier-Modell wie GPT-4 oder Claude. Wenn die Qualität stabil und der Use Case klar ist, migriere auf ein fein-getuntes Open-Weight-Modell. Das spart Kosten und gibt mehr Kontrolle.

Fine-Tuning lohnt sich wenn