KI-Hubs · Stand Juni 2026

Die fünf Dienste, die OS-Modelle per API zugänglich machen.

OpenRouter, Together AI, Groq, Replicate, Hugging Face Inference — sie sind der einfachste Weg, Open-Source-Modelle zu nutzen. Kein GPU-Cluster, kein Ops-Team, nur ein API-Key. Kein deutscher Artikel deckt sie bisher strukturell ab.

Diese Seite ist der Deep Dive zur KI-Ökosystem-Übersicht. Wer den Gesamtkontext sucht (OS vs Frontier vs Hub), startet dort.

Schnellvergleich

DienstEinstiegLLM-KostenImage/VideoBesonderheitBeste Wahl für
OpenRouterFree-Tier (25+ Modelle)~$0.05–2.10/M Inputvia Replicate300+ Modelle, Auto-RoutingModell-Vergleich, Flexibilität
Together AIPay-as-you-go$0.20–2.10/M InputNein (Fokus LLM)200+ OS Models, CachingProduktive OS-Nutzung
GroqFree-Tier (keine Karte)$0.05–0.59/M InputNein (Fokus LLM)LPU-beschleunigt, Batch 50%Latenz-kritische Anwendungen
ReplicatePay-as-you-goNach Compute-TimeJa ($0.0025/Image)LLM + Image + Video + AudioMultimodale Workloads
HF InferenceFree-Tier + PRO $9/moProvider-PreiseÜber ProviderServerless + Endpoints + ProvidersHF-Ökosystem-Integration

Preise Stand Juni 2026. Richtwerte — tatsächliche Kosten variieren je nach Nutzungsprofil.

OpenRouter

Der Meta-Router — 300+ Modelle, ein API-Key

Website ↗

OpenRouter aggregiert Modelle von über 20 Anbietern hinter einer API. Das Besondere: ich kann OS und Frontier über denselben Endpunkt nutzen. Budget-Limits verhindern Kosten-Überraschungen. Auto-Routing wählt den günstigsten Anbieter. Data-Policy-basiertes Routing erlaubt EU-Region zu bevorzugen.

Preise

Free-Tier mit 25+ kostenlosen Modellen. Pay-as-you-go, Preise variieren pro Modell.

API-Stil

OpenAI-kompatibel

Modell-Zugang

300+ (OS + Frontier gemischt)

Besonderheit

Auto-Routing, Budget-Limits, Provider-Auswahl, EU-Region-Routing

Beste Wahl für Teams die mehrere Modelle vergleichen oder zwischen OS und Frontier wechseln wollen.

Together AI

Managed OS-Inference — der breiteste OS-Modell-Katalog

Website ↗

Together hostet die wichtigsten OS-Modelle als Serverless API. Fokus: nur OS, kein Frontier. 200+ Modelle. Prompt Caching senkt Kosten bei wiederholten Inputs um bis zu 90%. Structured Outputs und Function Calling native unterstützt. OpenAI-kompatible API erleichtert Migration.

Preise

Pay-per-Token. Caching senkt Kosten drastisch.

API-Stil

OpenAI-kompatibel

Modell-Zugang

200+ (nur OS)

Besonderheit

Prompt Caching (90%), Structured Outputs, Function Calling

Wenn ich OS-Modelle produktiv nutzen will, aber nicht hosten möchte — mit bester Kompatibilität zu bestehendem Tooling.

Groq

Extrem schnelle OS-Inference auf LPU-Hardware

Website ↗

Groq hat eigene LPU-Chips entwickelt, die Inference massiv beschleunigen — besonders bei Llama 4 und DeepSeek. Batch-API und Prompt Caching halbieren die Kosten. Free-Tier ohne Kreditkarte macht es zum risikofreien Einstieg.

Weniger Modell-Auswahl als Together/OpenRouterLPU erfordert spezifische Modelldownsizes

Preise

Free-Tier (alle Modelle, keine Karte). Pay-as-you-go. Batch: 50% Rabatt. Caching: 50% Rabatt.

API-Stil

OpenAI-kompatibel

Modell-Zugang

OS-Fokus (Llama, DeepSeek, Gemma, Qwen)

Besonderheit

LPU-Beschleunigung, Free-Tier ohne Karte, Batch-API

Wenn Latenz kritisch ist — Chat, Realtime, Agenten-Setups. Oder zum Testen neuer OS-Modelle ohne finanzielles Risiko.

Replicate

OS-Modelle als Cloud-API — LLMs, Image, Video, Audio

Website ↗

Replicate hostet nicht nur LLMs, sondern auch Image-, Video-, Audio- und Code-Modelle. Official Models haben feste Preise pro Output (z.B. $0.0025 pro Image). Andere Modelle: Abrechnung nach Compute-Time. SDKs für Python, TypeScript, Node.js, Rust.

Preise schwer vergleichbar (Time vs Token)Fokus eher auf Developer als Enterprise

Preise

Pay-as-you-go. Official Models: feste Preise pro Output. Andere: Compute-Time ab $0.0003/s GPU.

API-Stil

Eigene API (SDKs für Python/TS/Rust)

Modell-Zugang

Breit (LLM + Image + Video + Audio + Code)

Besonderheit

Cog-Container-Standard, Official Models mit Festpreisen

Wenn ich nicht nur LLMs brauche, sondern auch Image-Gen, Video oder Audio — alles aus einer API, alles OS.

Hugging Face Inference

Das HF-Ökosystem als API — Serverless, Endpoints oder Providers

Website ↗

Drei Produkte unter einem Dach. Serverless API: Free-Tier mit Ratelimits, Zugriff auf alle Modelle. Inference Endpoints: Dedizierte GPU, Scale-to-Zero, ab $0.033/h. Inference Providers: Gateway zu Groq, Together, Replicate & Co. via OpenAI-kompatibler API — ein Endpunkt für alle.

Preise

PRO $9/Monat (höhere Limits, mehr Credits). Endpoints ab $0.033/h. Providers: Preise der jeweiligen Anbieter.

API-Stil

Eigene API + OpenAI-kompatibel (Providers)

Modell-Zugang

Alle HF-Modelle (Serverless) + alle Anbieter (Providers)

Besonderheit

3 Zugangswege für jede Phase, PRO für $9, HF-Ökosystem-Integration

Wenn ich im HF-Ökosystem arbeite oder einen Einstiegspunkt für alle OS-Modelle brauche.

Quellen

Datenbasis: Alle Preise direkt von den offiziellen Pricing-Seiten der Dienste (Juni 2026).

Haftungsausschluss: Angaben ohne Gewähr. Preise können sich zwischen den Updates ändern.

← Zurück zur KI-Ökosystem-Übersicht