
Enterprise-Gateway-Layer 2026: LiteLLM, Portkey, Cloudflare, Kong, AWS Strands & Privacy Router
TL;DR: „Wer einen Enterprise-Gateway vor seine Agenten setzen will, kombiniert heute LiteLLM (Multi-Provider) + Portkey (Governance) + Privacy Router (DSGVO-Routing). Cloudflare ist der schnellste Edge-Start, Kong die Wahl für regulierte Sektoren, AWS Strands für reine AWS-Stacks."
— Till FreitagWarum überhaupt einen Enterprise-Gateway?
Sobald mehr als ein Team LLMs produktiv nutzt, brauchst du vier Dinge an einer Stelle:
- Auth & RBAC – wer darf welches Modell mit welchem Budget nutzen?
- Observability & Logging – wer hat wann was gefragt, was kostete es, was kam zurück?
- Routing nach Modell/Vendor – Failover, Cost-Optimierung, PII-Awareness.
- Rate-Limiting & Quotas – pro Team, pro Modell, pro Tageszeit.
Microsoft Scout wurde als integrierter Enterprise-Gateway angekündigt – ist aber noch nicht verfügbar. Wer Mitte 2026 produktiv loslegen muss, kombiniert die folgenden Bausteine.
Entscheidungs-Flowchart: Welcher Gateway passt zu dir?
Start: Brauchst du einen LLM-Gateway?
│
├─ DSGVO-Strict / On-Premise-Pflicht?
│ │
│ ├─ Ja → Self-Hosted OpenClaw + Privacy Router
│ │ (lokale Modelle, kein Hyperscaler)
│ │
│ └─ Nein → weiter ↓
│
├─ Reiner AWS-Stack mit Compliance-Pflicht?
│ │
│ ├─ Ja → AWS Strands / Bedrock AgentCore
│ │ (IAM, CloudTrail, Bedrock-Modelle)
│ │
│ └─ Nein → weiter ↓
│
├─ Regulierte Branche (Bank, Pharma, Behörde)?
│ │
│ ├─ Ja → Kong AI Gateway (Self-hosted oder Konnect EU)
│ │ (mTLS, OAuth/OIDC, Audit-Trails, Plugin-Ökosystem)
│ │
│ └─ Nein → weiter ↓
│
├─ Brauchst du PII-Redaction & Prompt-Governance?
│ │
│ ├─ Ja → Portkey AI Gateway (vor LiteLLM)
│ │ (Guardrails, Prompt-Versionierung, A/B-Tests)
│ │
│ └─ Nein → weiter ↓
│
├─ Hohe Volumina mit Cache-Potenzial & globaler Edge?
│ │
│ ├─ Ja → Cloudflare AI Gateway
│ │ (DNS-Entry, 5 Min., sofort Logs & Cost-Caps)
│ │
│ └─ Nein → weiter ↓
│
└─ Default: Multi-Provider mit Quoten & Spend-Tracking
│
└─→ LiteLLM Proxy (+ optional Portkey für Governance)
(OpenAI-kompatibel, 100+ Provider, Docker in 10 Min.)Deployment-Decision: Self-Hosted vs. VPC vs. Managed vs. Hybrid vs. Air-Gapped
Bevor du dich für ein Produkt entscheidest, klär das Deployment-Modell. Es bestimmt Datenresidenz, Governance-Aufwand und Betriebskomplexität stärker als die Feature-Liste.
Start: Wo dürfen Prompts & Logs liegen?
│
├─ Keine Daten dürfen das Rechenzentrum verlassen (Behörde, Klinik, Defense)?
│ │
│ └─ Ja → Air-Gapped (on-prem, kein Internet)
│ Kandidaten: OpenClaw + Ollama/vLLM, Kong AI Gateway, LiteLLM
│ Betrieb: hoch (Updates manuell, eigenes Monitoring)
│
├─ Daten müssen in eigener Cloud-Tenant bleiben (Bank, Versicherung, Pharma)?
│ │
│ └─ Ja → VPC / Private Cloud (EU-Region, Customer-Managed Keys)
│ Kandidaten: AWS Strands/Bedrock AgentCore, Kong (Self-hosted in VPC),
│ LiteLLM/Portkey in eigenem EKS/AKS/GKE
│ Betrieb: mittel (Hyperscaler nimmt Infra-Last ab)
│
├─ DSGVO-konform, aber Mischung aus sensiblen & generischen Prompts?
│ │
│ └─ Ja → Hybrid (Managed-Control-Plane + Self-hosted Data-Plane)
│ Kandidaten: Portkey Hybrid, LiteLLM + Privacy Router,
│ Cloudflare AI Gateway mit EU-R2 + lokalem Fallback
│ Betrieb: mittel (zwei Ebenen, klare Routing-Policies nötig)
│
├─ Standard-SaaS, EU-Hosting reicht, Time-to-Value zählt?
│ │
│ └─ Ja → Managed (SaaS / Edge)
│ Kandidaten: Portkey Cloud (EU), Cloudflare AI Gateway,
│ AWS Bedrock (Frankfurt)
│ Betrieb: niedrig (DPA + Konfiguration, kein Infra-Betrieb)
│
└─ Volle Kontrolle, IaC-Pipelines, eigenes SRE-Team vorhanden?
│
└─ Ja → Self-Hosted (Docker/K8s im eigenen Cluster)
Kandidaten: LiteLLM, Portkey OSS, Kong, OpenClaw + Ollama
Betrieb: hoch (Updates, HA, Secrets-Rotation in eigener Hand)Kriterien-Matrix:
| Modell | Datenresidenz | Governance | Betriebskomplexität | Time-to-Value |
|---|---|---|---|---|
| Air-Gapped | 100 % on-prem, kein Internet | Maximal (kein Drittlandtransfer, kein DPA nötig) | Sehr hoch (Updates, Monitoring, HA selbst) | Wochen |
| Self-Hosted | Eigener Cluster (EU/on-prem) | Hoch (volle Auditierbarkeit, eigene Keys) | Hoch (SRE-Team, IaC, Patch-Management) | Tage |
| VPC / Private Cloud | Eigener Hyperscaler-Tenant (EU-Region) | Hoch (CMK, IAM, CloudTrail/Audit-Logs) | Mittel (Infra vom Hyperscaler, Config selbst) | Tage |
| Hybrid | Sensible Pfade lokal, Rest Managed | Hoch (Routing-Policies + Audit auf beiden Ebenen) | Mittel (zwei Ebenen, klare Klassifizierung nötig) | Tage bis Wochen |
| Managed (SaaS/Edge) | Anbieter-Region (EU wählbar) | Mittel (DPA + Anbieter-Zertifizierungen) | Niedrig (nur Config & Keys) | Stunden |
💡 Faustregel: Je strenger die Datenresidenz, desto höher die Betriebskomplexität. Hybrid ist der pragmatische Mittelweg, wenn nicht alle Prompts gleich sensibel sind – PII/Geheimnisse lokal, generische Cloud.
💡 Stack-Empfehlung Till Freitag: LiteLLM als Multi-Provider-Frontdoor + Portkey als Governance-Layer + Privacy Router für DSGVO-kritische Pfade. Sobald Microsoft Scout GA ist, lässt sich die Konfiguration mit überschaubarem Aufwand migrieren – Skills und MCP-Configs bleiben gleich.
Die sechs Alternativen im Detail – mit Enterprise-Workflows
LiteLLM Proxy – Die OpenAI-kompatible Multi-Provider-Frontdoor
Setup: ~10 Min. (docker run litellm/litellm oder pip install litellm). Hosting: self-hosted, EU-Hosting möglich. 100+ LLMs unter einer einheitlichen OpenAI-API.
Konkrete Enterprise-Workflows:
- RBAC / Auth: Virtuelle API-Keys pro Team mit JWT-Validierung.
master_key→ erzeugtteam_keysmit eigenen Modell-Whitelists. SSO via OIDC (Okta, Entra ID) über Reverse Proxy. - Logging / Observability: OTLP-Export zu Langfuse, Grafana Loki oder Datadog. Jeder Request mit
user_id,team_id, Input-/Output-Token, Kosten, Latenz. - Routing nach Modell/Vendor: Model-Aliases (
gpt-4→ primär Azure OpenAI Frankfurt, Fallback OpenAI US). Cost-based Routing übermodel_list-Preisinfo. Health-Checks alle 60s. - Rate-Limiting: Quotas pro Key (
rpm,tpm,max_budget_usd_per_month). Soft- & Hard-Caps mit Alert-Webhooks bei 80% Verbrauch.
Portkey AI Gateway – Der Governance-Layer mit Guardrails
Setup: ~15 Min. (Docker oder Cloud). Hosting: self-hosted (OSS) oder EU-Cloud. Sitzt typischerweise vor LiteLLM oder direkt vor dem Anbieter.
Konkrete Enterprise-Workflows:
- RBAC / Auth: Workspaces pro Abteilung, RBAC mit Admin / Developer / Viewer-Rollen. Virtuelle Keys mit per-Key Guardrail-Configs.
- Logging / Observability: Eingebautes Tracing-Dashboard mit Prompt-Diffs, Cost-Attribution, PII-Trefferquote. OTLP-Export für externe Stacks.
- Routing nach Modell/Vendor: Strategien: Loadbalance, Fallback, Conditional Routing (z. B. „PII erkannt → on-prem Ollama"), Guardrails als Pre-/Post-Filter (Toxicity, PII, JSON-Schema-Validierung).
- Rate-Limiting: Pro virtuellem Key, pro Modell, pro Tageszeit. Budget-Caps mit Auto-Disable.
Cloudflare AI Gateway – Der Managed Edge-Gateway
Setup: ~5 Min. (DNS-Eintrag oder Worker-Binding). Hosting: managed, Cloudflare-Edge (EU-PoPs vorhanden).
Konkrete Enterprise-Workflows:
- RBAC / Auth: Cloudflare Access (Zero Trust) als IdP-Schicht – Mitarbeiter authentifizieren sich gegen Entra ID / Okta, bevor sie den Gateway erreichen. API-Token mit Scopes je Service.
- Logging / Observability: Eingebaute Analytics-Konsole (Requests, Cache-Hit-Rate, Tokens, Kosten). Logs nach R2 / Logpush in EU-Region (S3, Splunk, BigQuery).
- Routing nach Modell/Vendor: Multi-Provider-Failover (z. B. Anthropic primär, OpenAI fallback). Caching auf Prompt-Hash spart bis 60% bei wiederkehrenden Queries (Marketing-Tools, Klassifizierer).
- Rate-Limiting: Cost-Caps pro Token, Requests/min per Account oder per User-Header. Edge-nahes Limit verhindert, dass Anbieter überhaupt kontaktiert wird.
Kong AI Gateway – Der klassische API-Gateway mit AI-Plugins
Setup: ~30 Min. (Helm / Docker). Hosting: self-hosted oder Kong Konnect EU.
Konkrete Enterprise-Workflows:
- RBAC / Auth: mTLS zwischen Services, OAuth 2.0 / OIDC zu Entra ID, Keycloak, Okta. Konsumenten-Modell mit ACLs pro Route – ideal für mandantenfähige Plattformen.
- Logging / Observability: Plugins für OTLP, Prometheus, Datadog, Elastic. Audit-Trails auf jeder Route, Request/Response-Bodies optional verschlüsselt im SIEM.
- Routing nach Modell/Vendor: AI-Proxy-Plugin spricht Anthropic, OpenAI, Cohere, Mistral, Azure OpenAI. AI-Request-Transformer für Prompt-Manipulation, AI-Response-Transformer für Schema-Erzwingung.
- Rate-Limiting: Rate-Limiting-Advanced-Plugin (sliding window, redis-backed) pro Consumer, pro Route, pro Plan-Tier. AI-Specific: Tokens/min statt nur Requests/min.
AWS Strands / Bedrock AgentCore – Der AWS-native Stack
Setup: ~30 Min. (AWS CLI + IAM + Bedrock-Console). Hosting: AWS Cloud, Frankfurt-Region.
Konkrete Enterprise-Workflows:
- RBAC / Auth: IAM-Rollen pro Lambda/Container, fein-granular pro Bedrock-Modell und pro Skill. SSO über IAM Identity Center, Permission-Sets pro Department.
- Logging / Observability: CloudTrail für jeden Bedrock-API-Call (Compliance-Audit-Trail), CloudWatch Logs Insights für Query, X-Ray für Tracing. Modelle haben eingebaute Invocation-Logs in S3/CloudWatch.
- Routing nach Modell/Vendor: Inference-Profiles in Bedrock erlauben cross-Region-Routing und Modell-Aliase. Bedrock Guardrails als zentrale PII/Toxicity-Schicht. Anthropic-Modelle, Llama, Mistral, Amazon Nova nativ.
- Rate-Limiting: Service-Quotas pro Modell und Region. Per-Application Provisioned Throughput für planbare Latenz. Budgets über AWS Cost Anomaly Detection mit Auto-Alert.
Self-Hosted OpenClaw + Privacy Router – Der DIY-Enterprise-Gateway
Setup: ~30 Min. (Docker Compose + Ollama). Hosting: on-premise, keine Datenabflüsse. Detail-Guide: Self-Hosting DSGVO.
Konkrete Enterprise-Workflows:
- RBAC / Auth: Reverse Proxy (Traefik, Nginx, Authentik) mit OIDC gegen eigenes Entra ID. Per-Team-Configs als YAML, Skill-Whitelists pro Team.
- Logging / Observability: OpenTelemetry-Collector → Loki/Grafana oder Elastic. Privacy Router loggt pro Request die Klassifizierungsentscheidung (lokal vs. Cloud) – Audit-Trail für die Datenschutzbeauftragte.
- Routing nach Modell/Vendor: Privacy Router entscheidet pro Prompt: sensibel → lokal (Ollama, vLLM), generisch → günstige Cloud (Haiku, Mini), komplex ohne PII → Top-Cloud (Sonnet, GPT). Regeln als YAML + ML-Classifier.
- Rate-Limiting: Nginx- oder Traefik-Middlewares mit per-Team-Limits, Token-Quotas via LiteLLM dahinter (Stacks lassen sich kombinieren).
Vergleichsmatrix: Datenschutz, Compliance, Latenz & Deployment
Direkter Side-by-Side-Vergleich aller sechs Enterprise-Gateway-Optionen entlang der Dimensionen, die für Einkauf, Security und Plattform-Teams am wichtigsten sind.
| Gateway | Datenschutz | Compliance | Latenz | Deployment-Modelle |
|---|---|---|---|---|
| LiteLLM Proxy | Hoch – self-hosted, Daten laufen nur durch deinen Proxy | SOC2-ready bei Self-Hosting; Logs/Quoten konfigurierbar; kein eingebauter PII-Redaction | Niedrig (zusätzlicher Hop ~5–20 ms) | Docker, Kubernetes/Helm, Bare-Metal, jede Cloud |
| Portkey AI Gateway | Hoch self-hosted / Mittel SaaS – PII-Redaction & Guardrails eingebaut | SOC2 (SaaS), DSGVO-freundlich self-hosted; Prompt-Versionierung & Audit-Logs | Niedrig–Mittel (10–30 ms inkl. Guardrails) | SaaS, Docker, Kubernetes, hybrid |
| Cloudflare AI Gateway | Mittel – managed Edge, Metadaten verbleiben bei Cloudflare | SOC2, ISO 27001, DSGVO-AVV; keine On-Prem-Option | Sehr niedrig (Edge-Routing, <10 ms Overhead) | Nur Managed SaaS (Cloudflare-Edge) |
| Kong AI Gateway | Hoch – vollständig self-hosted, mTLS end-to-end | SOC2, HIPAA, PCI, FedRAMP-ready; Plugin-basierte Audit-Trails | Niedrig (5–15 ms) | Docker, Kubernetes/Helm, VM, on-prem, hybrid |
| AWS Strands / Bedrock AgentCore | Hoch innerhalb AWS – Daten bleiben in deinem AWS-Account/Region | SOC2, ISO 27001, HIPAA, FedRAMP, EU-Region-Pinning via Bedrock | Niedrig in-Region (5–15 ms) | Nur AWS-managed (Bedrock + IAM) |
| Self-Hosted OpenClaw + Privacy Router | Maximal – on-premise, sensible Prompts verlassen das Netz nie | Volle DSGVO-/Schrems-II-Kontrolle, eigener Audit-Log, kein Drittlandtransfer | Variabel – lokale LLM-Latenz abhängig von Hardware (GPU empfohlen) | Docker Compose, Kubernetes, on-prem, air-gapped |
Lesehilfe: „Datenschutz" = wo Prompt-/Antwortdaten physisch liegen. „Compliance" = out-of-the-box verfügbare Zertifizierungen und Kontrollen. „Latenz" = zusätzlicher Gateway-Overhead, nicht das zugrunde liegende Modell. „Deployment" = wo du es heute tatsächlich betreiben kannst.
Real-World Deployment-Beispiele
Kurze, praxisnahe Szenarien – welches Deployment-Modell passt zu welchem Unternehmenstyp?
| Gateway | Deployment-Beispiel | Typisches Setup |
|---|---|---|
| LiteLLM Proxy | Self-Hosted: Tech-Scale-up mit 8 Entwicklerteams, jeder Team bekommt einen virtuellen API-Key. LiteLLM läuft auf einem dedizierten Kubernetes-Cluster in Hetzner Frankfurt. Kein Datenabfluss, SOC2-Ready durch eigene Audit-Logs. | Kubernetes/Helm, eigene Cloud, 2–3 Replikas |
| Portkey AI Gateway | Hybrid: Mittelständisches Industrieunternehmen nutzt Portkey SaaS für Prompt-Governance (Versionierung, Guardrails), leitet aber DSGVO-kritische Pfade (Kundendaten) über den self-hosted Portkey-Agent intern weiter. | SaaS + Docker-Agent on-premise, getrennte Workspaces |
| Cloudflare AI Gateway | Managed: E-Commerce-Startup mit globalem Traffic. DNS-Eintrag auf Cloudflare, AI Gateway vor allen Provider-APIs. Kein eigenes Kubernetes nötig, Logs fließen automatisch in R2 (EU-Region). | Reiner SaaS/Edge-Einsatz, keine eigene Infrastruktur |
| Kong AI Gateway | VPC / On-Premise: Bank mit regulatorischer mTLS-Pflicht. Kong Konnect EU in isoliertem VPC, End-to-End-Verschlüsselung, Plugin-basierte Audit-Trails. Kein Datenabfluss ins öffentliche Internet für sensible Transaktionsdaten. | Kong Konnect EU oder self-hosted Kubernetes, air-gapped Option |
| AWS Strands / Bedrock AgentCore | Managed (AWS-only): Fintech, das bereits vollständig auf AWS läuft (IAM, CloudTrail, Cost Explorer). Bedrock Inference-Profiles in Frankfurt, keine Drittlandtransfers. Provisioned Throughput für planbare Latenz bei Zahlungsverarbeitung. | AWS-managed, Frankfurt-Region, IAM Identity Center |
| Self-Hosted OpenClaw + Privacy Router | Air-Gapped / On-Premise: Krankenhaus mit absoluter Offline-Pflicht. OpenClaw + Ollama auf internen Servern, Privacy Router klassifiziert jeden Prompt lokal (kein Cloud-Modell jemals involviert). DSGVO-Konformität ohne Auftragsverarbeitungsvertrag. | Docker Compose, internes Netzwerk, keine Internetverbindung nötig |
Quick-Select: Welcher Enterprise-Gateway für welches Profil?
| Profil | Empfehlung | Warum |
|---|---|---|
| Schnellster Start | Cloudflare AI Gateway | DNS-Eintrag in 5 Minuten, sofort Logs & Cost-Caps |
| Höchste Datenschutz-Kontrolle | Self-Hosted OpenClaw + Privacy Router | Komplett on-premise, Modell-Routing nach Sensibilität |
| Bestes Gesamtpaket | LiteLLM Proxy (+ optional Portkey) | OpenAI-kompatibel, 100+ Provider, Quoten, Spend-Tracking |
| Regulierte Branche | Kong AI Gateway | mTLS, OAuth/OIDC, Audit-Trails, Plugin-Ökosystem |
| AWS-Only | AWS Strands / Bedrock AgentCore | IAM, CloudTrail, Bedrock-Inference-Profiles |
Migrationspfad zu Microsoft Scout (wenn GA)
Sobald Microsoft Scout verfügbar ist, ersetzt es typischerweise nicht alle der obigen Bausteine. Realistisch:
- LiteLLM → Scout: Wenn Microsoft den Multi-Provider-Anspruch einlöst (was offen ist), kann LiteLLM für Azure-First-Shops abgelöst werden.
- Portkey bleibt sinnvoll, wenn du provider-übergreifende Governance willst.
- Privacy Router bleibt essenziell – Scout ist Azure-nativ und löst kein on-premise Datenschutz-Routing.
- Kong & AWS Strands bleiben, da sie spezifische Anforderungen (mTLS, AWS-Compliance) abdecken, die Scout nicht ersetzt.
Empfehlung Till Freitag
Für 80% der Konzerne reicht heute: LiteLLM (Multi-Provider) + Portkey (Governance) + Privacy Router (DSGVO-Routing) – komplett offen, in 1–2 Tagen produktiv, migrationsfähig zu Scout. AWS-only-Shops nehmen Strands / AgentCore. Regulierte Branchen mit mTLS-Pflicht: Kong AI Gateway. Wer in 5 Minuten Logs sehen will: Cloudflare AI Gateway als Edge-Vorschaltung.
Den ganzen Marktüberblick findest du im Master-Artikel: Die besten OpenClaw-Alternativen 2026.
Mehr zum Thema: Coding-Agent-Layer · Multi-Agent-Layer · Self-Hosted & Privacy Layer · Microsoft Scout als OpenClaw-Gateway · Privacy Router Guide · Master-Artikel


