Stand: Juni 2026 · Wird beobachtet · Nächste Aktualisierung: August 2026

Drei Welten, ein Entscheidungsframework.

Ich versuche zu verstehen, wie diese drei Zugangswege zur KI zusammenhängen — und für wen welcher Weg passt. Kein weiterer Modell-Vergleich, sondern die Frage: In welche Welt investiere ich?

Diese Seite wird aus einer systematischen Knowledge Base gespeist, die Quellen zu Hub-Diensten, Frontier-Modellen und OS-Infrastruktur vernetzt. Was hier steht ist kein Endzustand — es ist eine Momentaufnahme einer sich schnell entwickelnden Landschaft. Alle Quellen sind verlinkt.

Juni 2026 · Aus KB-Recherche zu Hubs, Frontier und Compliance-Quellen

Fünf Beobachtungen, die mich beschäftigen

1

Der häufigste Fehler: Die Modellfrage als Modellfrage stellen

"GPT-5 oder Claude 4?" ist die falsche Frage. Die richtige lautet: "In welche Welt investiere ich — Open Source, Hub oder Frontier?" Die Modellentscheidung ergibt sich aus der Welt, nicht umgekehrt. Quelle: Analyse des AI-Org-Netzwerks (3.257 Nodes), bestätigt durch CSA-Monoculture-Risk-Report und FSB-Sound-Practices für regulierte Umfelder.

2

Hub/Access-Dienste sind 2026 der blinde Fleck

OpenRouter, Together AI, Groq, Replicate, Hugging Face Inference — kein deutscher Artikel deckt diese Dienste strukturell ab. Dabei sind sie der einfachste Einstieg in OS-Modelle: API-Key rein, loslegen. Kein GPU-Cluster, kein Ops-Team. Quelle: Eigene Recherche und Vergleich der Pricing-Seiten aller fünf Dienste (Juni 2026).

3

Hybrid ist kein Kompromiss — es ist der Normalzustand

80% der Workloads (Zusammenfassungen, Extraktion, RAG) laufen auf OS-Modellen. Die restlichen 20% (komplexes Reasoning, Vertragsanalyse) gehen an Frontier. OpenRouter macht diesen Mix besonders einfach. Quelle: Grotto-Architektur (MLOps Community), CSFTrends-Refresh aus der AI-Org-KB (Mai 2026).

4

Compliance entscheidet über den Zugangsweg — nicht Performance

Die Frage ist nicht "welches Modell ist besser", sondern "dürfen meine Daten diesen Anbieter verlassen?". Für regulierte Branchen führt an Self-Hosting kaum ein Weg vorbei. Hubs bieten eine Mittelposition: OS-Modelle per API, aber Daten bleiben beim Hub-Anbieter. Quelle: EU AI Act Article 50, FSB-Sound-Practices, CSA-Monoculture-Analyse (alle Mai/Juni 2026).

5

Die Frontier-Landkarte ändert sich im Wochenrhythmus — ich halte nicht mit

Acht deutsche Seiten vergleichen GPT-5 vs Claude 4 vs Gemini 3 mit aktuelleren Daten als ich sie je halten könnte. Meine Strategie: Die Modelle kurz einordnen, auf externe Vergleiche verweisen — und den Fokus auf die strukturelle Entscheidung legen (OS vs Hub vs Frontier), die sich langsamer ändert.

Ralf Kruse
„Die entscheidende Frage 2026 ist nicht ,Welches Modell ist besser?' sondern ,In welche Welt investiere ich — und wer hilft mir, den Überblick zu behalten?' Die Hub-Dienste sind für mich der spannendste blinde Fleck: sie machen OS-Modelle zugänglich ohne Infrastruktur — aber kein Artikel im deutschen Raum ordnet sie strukturell ein. Das will ich ändern."

Ralf Kruse, EnableChange — seit 2009 in der Organisationsentwicklung

Drei Welten — und eine Entscheidung

Der häufigste Fehler 2026: die Modellfrage als Modellfrage zu stellen. „GPT-5 oder Claude 4?" ist nicht die Frage. Die richtige: „In welche Welt investiere ich — und welche Kombination ergibt Sinn für meine Daten, mein Team, meine Compliance?"

Quellen: CSA-Monoculture-Risk-Report, FSB-Sound-Practices, EU AI Act Article 50 — alle Mai/Juni 2026.

🔓

Open Source — Selbst hosten

Maximale Kontrolle, aber Betriebskosten nicht unterschätzen

KostenHardware + Betrieb
KontrolleVoll — Daten verlassen nie das Perimeter
ComplianceSelbst steuerbar (DSGVO, EU AI Act)
Performance~5–15% unter Frontier-Spitze
AufwandHoch — braucht Team oder Dienstleister
🔌

Hubs/Access — API ohne Infrastruktur

OS-Modelle nutzen, ohne selbst zu hosten — flexibel, günstiger Einstieg

KostenPay-per-Token oder Pay-per-Time
KontrolleMittel — Daten gehen zum Hub-Anbieter
ComplianceAbhängig vom Anbieter (US/EU)
PerformanceOS-Niveau — teils durch Spezialhardware schneller
AufwandGering — API-Key reicht

Frontier — Beste Modelle per API

Spitzenleistung gegen Datenweitergabe — der klassische Kompromiss

KostenPay-per-Token (teurer als Hubs)
KontrolleGering — Daten beim API-Anbieter
ComplianceAnbieter-abhängig (DSGVO oft Zusatzvereinbarung)
PerformanceState-of-the-Art (GPT-5, Claude 4, Gemini 3)
AufwandSehr gering — API-Key, Standard-SDKs

Hub/Access: OS ohne Infrastruktur

Das ist für mich der spannendste Teil der Landschaft: Fünf Dienste machen OS-Modelle per API zugänglich — ohne dass ich selbst hosten muss. Kein deutscher Artikel deckt sie strukturell ab. Hier ist mein Versuch, das zu ändern.

Preise Stand Juni 2026 von den jeweiligen Pricing-Seiten. Alle Angaben ohne Gewähr — die Preise ändern sich schneller als ich diese Seite aktualisieren kann.

OpenRouter

Der Meta-Router — 300+ Modelle, ein API-Key

Website ↗

OpenRouter aggregiert Modelle von über 20 Anbietern (OS + Frontier) hinter einer API. DeepSeek V4, Llama 4, GPT-5, Claude 4 — alles über denselben Endpunkt. Mit Budget-Limits, Auto-Routing und Provider-Auswahl.

Preise: Free-Tier: 25+ Modelle kostenlos. Pay-as-you-go ab $0.05/M Token. Caching reduziert Kosten.
300+ Modelle, ein API-KeyKostenkontrolle mit Budget-LimitsAuto-Routing zum günstigsten AnbieterData-Policy-basiertes Routing (EU-Region wählbar)

Beste Wahl wenn ich mehrere Modelle vergleichen oder zwischen OS und Frontier wechseln will — ohne jedes Mal einen neuen API-Key zu holen

Together AI

Managed OS-Inference — Llama, DeepSeek, Mistral als API

Website ↗

Together hostet die wichtigsten OS-Modelle als Serverless API. Fokus auf OS — kein Frontier. 200+ Modelle, Pay-per-Token. Prompt Caching senkt Kosten bei wiederholten Inputs um bis zu 90%.

Preise: DeepSeek V4 Pro: Input $2.10/M, Output $4.40/M. Cached Input: $0.20/M. Qwen 3.5: Input $0.50/M, Output $3.00/M.
Beste OS-Modell-AbdeckungPrompt Caching (90% günstiger)Structured Outputs / Function CallingOpenAI-kompatible API

Wenn ich OS-Modelle produktiv nutzen will, aber nicht hosten möchte — und Wert auf Kompatibilität mit bestehendem Tooling lege

Groq

Extrem schnelle OS-Inference auf LPU-Hardware

Website ↗

Groq betreibt eigene LPU-Chips, die Inference massiv beschleunigen. Llama 4, DeepSeek, Gemma — alles OS. Batch-API und Prompt Caching halbieren die Kosten.

Preise: Free-Tier: alle Modelle ohne Karte. Llama 4 Scout: Input $0.12/M, Output $0.30/M. Batch: 50% Rabatt. Caching: 50% Rabatt.
Schnellste Inference (LPU statt GPU)Free-Tier ohne KreditkarteBatch-API: 50% günstigerDeveloper-fokussiert, gute DXWeniger Modell-Auswahl als Together / OpenRouterLPU erfordert spezifische Modelldownsizes

Wenn Latenz kritisch ist — Chat, Realtime, Agenten-Setups. Oder zum Testen neuer OS-Modelle ohne finanzielles Risiko

Replicate

OS-Modelle als Cloud-API — breites Spektrum über LLMs hinaus

Website ↗

Replicate hostet nicht nur LLMs, sondern auch Image-, Video-, Audio- und Code-Modelle — alles Open Source. Abrechnung teils nach Token, teils nach Compute-Time.

Preise: Pay-as-you-go. Official Models haben feste Preise pro Output (z.B. $0.0025 pro Image). Andere Modelle: nach Compute-Time ab $0.0003/s GPU.
Breites Spektrum (nicht nur LLMs)Official Models mit festen PreisenGute Python/TypeScript SDKsCog: eigener Container-StandardPreise schwer vergleichbar (Time vs Token)Fokus eher auf Developer als Enterprise

Wenn ich nicht nur LLMs brauche, sondern auch Image-Gen, Video oder Audio — alles aus einer API, alles OS

Hugging Face Inference

Das HF-Ökosystem als API — Serverless, Endpoints oder Providers

Website ↗

Drei Produkte unter einem Dach: Serverless API (Free-Tier, alle Modelle), Inference Endpoints (dedizierte GPU, Scale-to-Zero), Inference Providers (Gateway zu Groq, Together, Replicate & Co. via OpenAI-kompatibler API).

Preise: PRO: $9/Monat (höhere Limits). Endpoints: ab $0.033/h (scale-to-zero). Providers: Preise der jeweiligen Anbieter.
3 Zugangswege für jede PhaseIntegration mit HF-Ökosystem (Hub, Spaces, Datasets)Inference Providers: OpenAI-kompatible APIPRO für $9 — günstigster Einstieg

Wenn ich im HF-Ökosystem arbeite (eigene Modelle, Datasets, Spaces) oder einen einzigen Einstiegspunkt für alle OS-Modelle brauche

Frontier: Die drei Platzhirsche — kurz eingeordnet

GPT-5, Claude 4, Gemini 3 — wer maximale Qualität braucht und Datenweitergabe akzeptieren kann, kommt an ihnen nicht vorbei. Aber: Acht deutsche Seiten vergleichen diese Modelle mit aktuelleren Daten. Meine Strategie: kurz einordnen, dann auf externe Vergleiche verweisen.

GPT-5/5.5

OpenAI
  • Bester Allrounder
  • Computer Use (autonome Desktop-Steuerung)
  • Grösstes Plugin/Agent-Ökosystem
  • Custom GPTs
  • !Kein EU-Hosting-Standard
  • !Trainingstransparenz begrenzt
Website ↗

Claude 4.7 Opus

Anthropic
  • Beste Reasoning-Qualität
  • 1M Token Kontext
  • Stärkste Coding-Performance
  • Safety-by-Design
  • !Höhere Token-Kosten
  • !Weniger Multimodal als GPT-5
Website ↗

Gemini 3.1 Pro

Google DeepMind
  • Beste Multimodalität (Text, Bild, Video, Audio)
  • 2M Token Kontext
  • Integration mit Google-Ökosystem
  • EU-Hosting (Google Cloud)
  • !Weniger stark bei längeren Agentic Workflows
  • !Qualität schwankt je nach Aufgabe
Website ↗

Tiefer eintauchen:Orivelfür Qualitäts-Ranking,MetXmefür EU-Enterprise-Bewertung,WiWofür das breiteste Benchmarking.

Vier Pfade — was ich bisher sehe

Nicht jede Organisation braucht alle drei Welten. Vier typische Pfade zeichnen sich ab — und die meisten Unternehmen landen im Hybrid. Das ist keine Empfehlung, sondern eine Beobachtung aus der KB und den Quellen der letzten Monate.

Pfad 1: OS-First

Self-Hosting als Standard. Hub oder Frontier nur für Ausnahmen.

Passt zu: Regulierte Branchen (Finance, Health, Legal), Unternehmen mit eigener Infrastruktur, hohe Datensensibilität

Vorteil: Maximale Compliance, keine Datenweitergabe, langfristig günstiger ab hohem Volumen

Risiko: Betriebskosten unterschätzt, Personal-Aufwand, langsamerer Zugang zu neuen Modellen

Pfad 2: Hub-First

OS-Modelle per API — ohne eigene Infrastruktur. Frontier als Fallback.

Passt zu: Startups, kleinere Teams, schnelle Prototypen, Unternehmen die OS testen wollen

Vorteil: Geringster Einstieg, maximale Flexibilität, kein Ops-Team nötig

Risiko: Daten beim Hub-Anbieter, Kosten bei hohem Volumen, Vendor-Lock-in auf API-Ebene

Pfad 3: Frontier-First

Beste Modelle per API. OS nur wenn nötig (Daten, Kosten).

Passt zu: Unternehmen die maximale Qualität brauchen, schnelle Integration suchen

Vorteil: State-of-the-Art Performance, geringster Aufwand, etablierte Ökosysteme

Risiko: Vendor-Lock-in, Kosten schwer kontrollierbar, Compliance-Risiko bei sensiblen Daten

Häufigster Pfad

Pfad 4: Hybrid

OS für 80% der Workloads, Frontier für 20%. Hubs als Brücke.

Passt zu: Den meisten Unternehmen mit gemischten Anforderungen

Vorteil: Beste Kostenkontrolle, maximale Flexibilität, Ausfallsicherheit durch Anbieter-Diversifikation

Risiko: Höhere Komplexität, braucht klare Routing-Entscheidungen

Quelle: Grotto-Architektur (MLOps Community), CSFTrends-Refresh AI-Org-KB (Mai 2026).

Tiefer eintauchen — die Themenseiten

Diese Seite gibt den Überblick. Auf den Themenseiten geht es in die Tiefe — mit Tools, Benchmarks und Entscheidungskriterien pro Zugangsweg. Ich baue sie nach und nach auf.

🔓

Open Source KI

Der OS-KI-Stack: 6 Layer, wichtigste Tools und Modelle, Communities und Vergleichsquellen.

Zur OS-Seite →
🔌

KI-Hubs & API-Dienste

OpenRouter, Together AI, Groq, Replicate, HF Inference — Preise, Limits, Use Cases im Detail.

Zur Hub-Seite →

Frontier-Modelle

GPT-5, Claude 4, Gemini 3 im Vergleich: Benchmarks, Pricing, EU-Konformität.

Zur Frontier-Seite →

Häufige Fragen

Brauche ich überhaupt Open Source — oder reicht eine API?
Kommt auf Ihre Daten an. Liegen die sensibel (Gesundheit, Finanzen, Kundendaten), führt an Self-Hosting kaum ein Weg vorbei — da hilft auch keine DSGVO-Zusatzvereinbarung mit einem US-Anbieter. Sind Ihre Daten weniger kritisch, sind Hubs oder Frontier-APIs der effizientere Weg. Die Entscheidung ist also weniger technisch als datenpolitisch.
Welcher Hub-Dienst ist der richtige für mich?
OpenRouter, wenn Sie mehrere Modelle vergleichen oder zwischen OS und Frontier wechseln wollen. Together, wenn Sie OS-Modelle produktiv nutzen und Prompt Caching maximieren wollen. Groq, wenn Latenz kritisch ist (Chat, Realtime). Replicate, wenn Sie auch Image/Video/Audio brauchen. Hugging Face, wenn Sie im HF-Ökosystem arbeiten.
Kann ich OS und Frontier mischen?
Ja, und das ist oft die klügste Strategie. 80% der Workloads (Zusammenfassungen, Extraktion, RAG) laufen auf OS-Modellen — selbst gehostet oder per Hub. Die restlichen 20% (komplexes Reasoning, Vertragsanalyse, Code-Generierung) gehen an Frontier. OpenRouter macht diesen Mix besonders einfach, weil er beide Welten hinter einer API vereint.
Lohnt sich Self-Hosting wirtschaftlich?
Nur ab einer gewissen Nutzungsmenge. Liegen Ihre monatlichen API-Kosten über $1.000–2.000 und haben Sie konstante Auslastung, kann sich Hardware lohnen. Aber der Betriebsaufwand (Team, GPU-Cluster, Security) wird oft unterschätzt. Viele Unternehmen starten per Hub, skalieren dann auf Self-Hosting — oder bleiben im Hybrid.
Was ist mit EU AI Act — welche Welt ist compliant?
Open Source gibt Ihnen maximale Kontrolle — Sie entscheiden, wo die Daten liegen, wie auditiert wird, was protokolliert wird. Hubs und Frontier-Anbieter bieten je nach Anbieter unterschiedliche Compliance-Level. Bei US-Anbietern brauchen Sie eine DSGVO-Zusatzvereinbarung. EU-Anbieter wie Mistral (OS) oder Aleph Alpha (Frontier) haben hier Vorteile. Der EU AI Act selbst ist anbieterneutral — er reguliert den Einsatz, nicht den Zugangsweg.
Ralf Kruse

Diese Seite lebt

Ich betreibe seit 2025 eine systematische Knowledge Base zum Thema KI-Infrastruktur. Neue Quellen werden dort nicht nur abgelegt, sondern in ein semantisches Netzwerk eingewoben — Konzepte werden mit bestehendem Wissen verknüpft, Lücken sichtbar, Muster verstärkt.

Datenbasis: Eigene Recherche zu Hub-Diensten, Frontier-Modellen und OS-Zugangswegen, ergänzt durch Quellen aus der AI-Org Knowledge Base (3.257 Nodes, Stand Juni 2026).

Update-Rhythmus: Quartalsweise. Nächste Aktualisierung: August 2026.

Fehlt ein Dienst? Eine Perspektive? Schreib mir — ich baue die Seite weiter.

Haftungsausschluss: Alle Angaben ohne Gewähr. Preise, Modell-Verfügbarkeit und API-Spezifikationen können sich zwischen den Updates ändern.