KI-Hubs · Stand Juni 2026
Die fünf Dienste, die OS-Modelle
per API zugänglich machen.
OpenRouter, Together AI, Groq, Replicate, Hugging Face Inference — sie sind der einfachste Weg, Open-Source-Modelle zu nutzen. Kein GPU-Cluster, kein Ops-Team, nur ein API-Key. Kein deutscher Artikel deckt sie bisher strukturell ab.
Diese Seite ist der Deep Dive zur KI-Ökosystem-Übersicht. Wer den Gesamtkontext sucht (OS vs Frontier vs Hub), startet dort.
Schnellvergleich
| Dienst | Einstieg | LLM-Kosten | Image/Video | Besonderheit | Beste Wahl für |
|---|---|---|---|---|---|
| OpenRouter | Free-Tier (25+ Modelle) | ~$0.05–2.10/M Input | via Replicate | 300+ Modelle, Auto-Routing | Modell-Vergleich, Flexibilität |
| Together AI | Pay-as-you-go | $0.20–2.10/M Input | Nein (Fokus LLM) | 200+ OS Models, Caching | Produktive OS-Nutzung |
| Groq | Free-Tier (keine Karte) | $0.05–0.59/M Input | Nein (Fokus LLM) | LPU-beschleunigt, Batch 50% | Latenz-kritische Anwendungen |
| Replicate | Pay-as-you-go | Nach Compute-Time | Ja ($0.0025/Image) | LLM + Image + Video + Audio | Multimodale Workloads |
| HF Inference | Free-Tier + PRO $9/mo | Provider-Preise | Über Provider | Serverless + Endpoints + Providers | HF-Ökosystem-Integration |
Preise Stand Juni 2026. Richtwerte — tatsächliche Kosten variieren je nach Nutzungsprofil.
OpenRouter
Der Meta-Router — 300+ Modelle, ein API-Key
OpenRouter aggregiert Modelle von über 20 Anbietern hinter einer API. Das Besondere: ich kann OS und Frontier über denselben Endpunkt nutzen. Budget-Limits verhindern Kosten-Überraschungen. Auto-Routing wählt den günstigsten Anbieter. Data-Policy-basiertes Routing erlaubt EU-Region zu bevorzugen.
Preise
Free-Tier mit 25+ kostenlosen Modellen. Pay-as-you-go, Preise variieren pro Modell.
API-Stil
OpenAI-kompatibel
Modell-Zugang
300+ (OS + Frontier gemischt)
Besonderheit
Auto-Routing, Budget-Limits, Provider-Auswahl, EU-Region-Routing
Beste Wahl für Teams die mehrere Modelle vergleichen oder zwischen OS und Frontier wechseln wollen.
Together AI
Managed OS-Inference — der breiteste OS-Modell-Katalog
Together hostet die wichtigsten OS-Modelle als Serverless API. Fokus: nur OS, kein Frontier. 200+ Modelle. Prompt Caching senkt Kosten bei wiederholten Inputs um bis zu 90%. Structured Outputs und Function Calling native unterstützt. OpenAI-kompatible API erleichtert Migration.
Preise
Pay-per-Token. Caching senkt Kosten drastisch.
API-Stil
OpenAI-kompatibel
Modell-Zugang
200+ (nur OS)
Besonderheit
Prompt Caching (90%), Structured Outputs, Function Calling
Wenn ich OS-Modelle produktiv nutzen will, aber nicht hosten möchte — mit bester Kompatibilität zu bestehendem Tooling.
Groq
Extrem schnelle OS-Inference auf LPU-Hardware
Groq hat eigene LPU-Chips entwickelt, die Inference massiv beschleunigen — besonders bei Llama 4 und DeepSeek. Batch-API und Prompt Caching halbieren die Kosten. Free-Tier ohne Kreditkarte macht es zum risikofreien Einstieg.
Preise
Free-Tier (alle Modelle, keine Karte). Pay-as-you-go. Batch: 50% Rabatt. Caching: 50% Rabatt.
API-Stil
OpenAI-kompatibel
Modell-Zugang
OS-Fokus (Llama, DeepSeek, Gemma, Qwen)
Besonderheit
LPU-Beschleunigung, Free-Tier ohne Karte, Batch-API
Wenn Latenz kritisch ist — Chat, Realtime, Agenten-Setups. Oder zum Testen neuer OS-Modelle ohne finanzielles Risiko.
Replicate
OS-Modelle als Cloud-API — LLMs, Image, Video, Audio
Replicate hostet nicht nur LLMs, sondern auch Image-, Video-, Audio- und Code-Modelle. Official Models haben feste Preise pro Output (z.B. $0.0025 pro Image). Andere Modelle: Abrechnung nach Compute-Time. SDKs für Python, TypeScript, Node.js, Rust.
Preise
Pay-as-you-go. Official Models: feste Preise pro Output. Andere: Compute-Time ab $0.0003/s GPU.
API-Stil
Eigene API (SDKs für Python/TS/Rust)
Modell-Zugang
Breit (LLM + Image + Video + Audio + Code)
Besonderheit
Cog-Container-Standard, Official Models mit Festpreisen
Wenn ich nicht nur LLMs brauche, sondern auch Image-Gen, Video oder Audio — alles aus einer API, alles OS.
Hugging Face Inference
Das HF-Ökosystem als API — Serverless, Endpoints oder Providers
Drei Produkte unter einem Dach. Serverless API: Free-Tier mit Ratelimits, Zugriff auf alle Modelle. Inference Endpoints: Dedizierte GPU, Scale-to-Zero, ab $0.033/h. Inference Providers: Gateway zu Groq, Together, Replicate & Co. via OpenAI-kompatibler API — ein Endpunkt für alle.
Preise
PRO $9/Monat (höhere Limits, mehr Credits). Endpoints ab $0.033/h. Providers: Preise der jeweiligen Anbieter.
API-Stil
Eigene API + OpenAI-kompatibel (Providers)
Modell-Zugang
Alle HF-Modelle (Serverless) + alle Anbieter (Providers)
Besonderheit
3 Zugangswege für jede Phase, PRO für $9, HF-Ökosystem-Integration
Wenn ich im HF-Ökosystem arbeite oder einen Einstiegspunkt für alle OS-Modelle brauche.
Quellen
- OpenRouter Pricing — Stand Juni 2026
- Together AI Pricing — Stand Juni 2026
- Groq Pricing — Stand Juni 2026
- Replicate Pricing — Stand Juni 2026
- Hugging Face Pricing — Stand Juni 2026
Datenbasis: Alle Preise direkt von den offiziellen Pricing-Seiten der Dienste (Juni 2026).
Haftungsausschluss: Angaben ohne Gewähr. Preise können sich zwischen den Updates ändern.