KI-HubsOpenRouter Together AI Groq Replicate HF Inference Vergleich Quellen

KI-Hubs · Stand Juni 2026

Die fünf Dienste, die OS-Modelle
per API zugänglich machen.

OpenRouter, Together AI, Groq, Replicate, Hugging Face Inference — sie sind der einfachste Weg, Open-Source-Modelle zu nutzen. Kein GPU-Cluster, kein Ops-Team, nur ein API-Key. Kein deutscher Artikel deckt sie bisher strukturell ab.

Diese Seite ist der Deep Dive zur KI-Ökosystem-Übersicht. Wer den Gesamtkontext sucht (OS vs Frontier vs Hub), startet dort.

Schnellvergleich

Dienst	Einstieg	LLM-Kosten	Image/Video	Besonderheit	Beste Wahl für
OpenRouter	Free-Tier (25+ Modelle)	~$0.05–2.10/M Input	via Replicate	300+ Modelle, Auto-Routing	Modell-Vergleich, Flexibilität
Together AI	Pay-as-you-go	$0.20–2.10/M Input	Nein (Fokus LLM)	200+ OS Models, Caching	Produktive OS-Nutzung
Groq	Free-Tier (keine Karte)	$0.05–0.59/M Input	Nein (Fokus LLM)	LPU-beschleunigt, Batch 50%	Latenz-kritische Anwendungen
Replicate	Pay-as-you-go	Nach Compute-Time	Ja ($0.0025/Image)	LLM + Image + Video + Audio	Multimodale Workloads
HF Inference	Free-Tier + PRO $9/mo	Provider-Preise	Über Provider	Serverless + Endpoints + Providers	HF-Ökosystem-Integration

Preise Stand Juni 2026. Richtwerte — tatsächliche Kosten variieren je nach Nutzungsprofil.

OpenRouter

Der Meta-Router — 300+ Modelle, ein API-Key

Website ↗

OpenRouter aggregiert Modelle von über 20 Anbietern hinter einer API. Das Besondere: ich kann OS und Frontier über denselben Endpunkt nutzen. Budget-Limits verhindern Kosten-Überraschungen. Auto-Routing wählt den günstigsten Anbieter. Data-Policy-basiertes Routing erlaubt EU-Region zu bevorzugen.

Preise

Free-Tier mit 25+ kostenlosen Modellen. Pay-as-you-go, Preise variieren pro Modell.

API-Stil

OpenAI-kompatibel

Modell-Zugang

300+ (OS + Frontier gemischt)

Besonderheit

Auto-Routing, Budget-Limits, Provider-Auswahl, EU-Region-Routing

Beste Wahl für Teams die mehrere Modelle vergleichen oder zwischen OS und Frontier wechseln wollen.

Together AI

Managed OS-Inference — der breiteste OS-Modell-Katalog

Website ↗

Together hostet die wichtigsten OS-Modelle als Serverless API. Fokus: nur OS, kein Frontier. 200+ Modelle. Prompt Caching senkt Kosten bei wiederholten Inputs um bis zu 90%. Structured Outputs und Function Calling native unterstützt. OpenAI-kompatible API erleichtert Migration.

Preise

Pay-per-Token. Caching senkt Kosten drastisch.

API-Stil

OpenAI-kompatibel

Modell-Zugang

200+ (nur OS)

Besonderheit

Prompt Caching (90%), Structured Outputs, Function Calling

Wenn ich OS-Modelle produktiv nutzen will, aber nicht hosten möchte — mit bester Kompatibilität zu bestehendem Tooling.

Groq

Extrem schnelle OS-Inference auf LPU-Hardware

Website ↗

Groq hat eigene LPU-Chips entwickelt, die Inference massiv beschleunigen — besonders bei Llama 4 und DeepSeek. Batch-API und Prompt Caching halbieren die Kosten. Free-Tier ohne Kreditkarte macht es zum risikofreien Einstieg.

Weniger Modell-Auswahl als Together/OpenRouterLPU erfordert spezifische Modelldownsizes

Preise

Free-Tier (alle Modelle, keine Karte). Pay-as-you-go. Batch: 50% Rabatt. Caching: 50% Rabatt.

API-Stil

OpenAI-kompatibel

Modell-Zugang

OS-Fokus (Llama, DeepSeek, Gemma, Qwen)

Besonderheit

LPU-Beschleunigung, Free-Tier ohne Karte, Batch-API

Wenn Latenz kritisch ist — Chat, Realtime, Agenten-Setups. Oder zum Testen neuer OS-Modelle ohne finanzielles Risiko.

Replicate

OS-Modelle als Cloud-API — LLMs, Image, Video, Audio

Website ↗

Replicate hostet nicht nur LLMs, sondern auch Image-, Video-, Audio- und Code-Modelle. Official Models haben feste Preise pro Output (z.B. $0.0025 pro Image). Andere Modelle: Abrechnung nach Compute-Time. SDKs für Python, TypeScript, Node.js, Rust.

Preise schwer vergleichbar (Time vs Token)Fokus eher auf Developer als Enterprise

Preise

Pay-as-you-go. Official Models: feste Preise pro Output. Andere: Compute-Time ab $0.0003/s GPU.

API-Stil

Eigene API (SDKs für Python/TS/Rust)

Modell-Zugang

Breit (LLM + Image + Video + Audio + Code)

Besonderheit

Cog-Container-Standard, Official Models mit Festpreisen

Wenn ich nicht nur LLMs brauche, sondern auch Image-Gen, Video oder Audio — alles aus einer API, alles OS.

Hugging Face Inference

Das HF-Ökosystem als API — Serverless, Endpoints oder Providers

Website ↗

Drei Produkte unter einem Dach. Serverless API: Free-Tier mit Ratelimits, Zugriff auf alle Modelle. Inference Endpoints: Dedizierte GPU, Scale-to-Zero, ab $0.033/h. Inference Providers: Gateway zu Groq, Together, Replicate & Co. via OpenAI-kompatibler API — ein Endpunkt für alle.

Preise

PRO $9/Monat (höhere Limits, mehr Credits). Endpoints ab $0.033/h. Providers: Preise der jeweiligen Anbieter.

API-Stil

Eigene API + OpenAI-kompatibel (Providers)

Modell-Zugang

Alle HF-Modelle (Serverless) + alle Anbieter (Providers)

Besonderheit

3 Zugangswege für jede Phase, PRO für $9, HF-Ökosystem-Integration

Wenn ich im HF-Ökosystem arbeite oder einen Einstiegspunkt für alle OS-Modelle brauche.

Quellen

OpenRouter Pricing — Stand Juni 2026
Together AI Pricing — Stand Juni 2026
Groq Pricing — Stand Juni 2026
Replicate Pricing — Stand Juni 2026
Hugging Face Pricing — Stand Juni 2026

Datenbasis: Alle Preise direkt von den offiziellen Pricing-Seiten der Dienste (Juni 2026).

Haftungsausschluss: Angaben ohne Gewähr. Preise können sich zwischen den Updates ändern.

← Zurück zur KI-Ökosystem-Übersicht

Die fünf Dienste, die OS-Modelle per API zugänglich machen.

Schnellvergleich

OpenRouter

Together AI

Groq

Replicate

Hugging Face Inference

Quellen

Die fünf Dienste, die OS-Modelle
per API zugänglich machen.