
Self-Hosted & Privacy-Layer 2026: Ontheia, Anything LLM & Privacy Router
TL;DR: „DSGVO-konforme KI ist 2026 keine Theorie mehr. Ontheia + Privacy Router + Ollama liefern den vollständigen Local-AI-First-Stack – heute schon, ohne Hyperscaler. Sobald RTX Spark verfügbar ist, wird das zur Default-Option für Mittelstand und Konzern."
— Till FreitagWarum überhaupt self-hosten?
Drei Treiber bringen Mittelständler und Konzerne 2026 zum Self-Hosting:
- DSGVO & Schrems II – Prompts mit Kundendaten dürfen nicht in die USA.
- Branchen-Regulierung – BaFin, KRITIS, Pharma, Behörden verlangen On-premise oder zumindest EU-Hoheit.
- Kostenkontrolle – wer 100+ Mitarbeiter mit LLMs ausstattet, zahlt schnell 5-stellig pro Monat an Anthropic/OpenAI.
Self-Hosting heißt nicht „LLM kaufen und vergessen". Es heißt: Runtime (Agent), Routing-Layer (Privacy-aware), Modell-Layer (lokales LLM) sauber trennen. Genau diese drei Bausteine schauen wir uns an.
Die Runtime-Schicht: Ontheia, Anything LLM, NanoClaw
Ontheia – Die EU-native Open-Source-Runtime
TypeScript, Docker, AGPL-3.0. Spricht Anthropic, OpenAI, Gemini, Grok und Ollama out of the box. Setup: 15 Minuten (Docker Compose).
- Typischer Workflow: Ontheia als zentrale Agent-Runtime im eigenen Rechenzentrum. Anwender chatten über ein eigenes Webfrontend, Skills laufen auf eigener Infrastruktur, Daten verlassen das Haus nie.
- Best for: EU-Mittelständler, die ein OpenClaw-ähnliches Erlebnis ohne Anthropic-Bindung wollen.
- Stärke: AGPL zwingt Forks zur Offenheit – planbare Roadmap, keine Embrace-Extend-Extinguish-Gefahr.
Anything LLM – Der All-in-One-Hub
34.000+ Stars. RAG, Multi-LLM, Workspace-Konzept, Browser-UI, Desktop-App. Setup: 20 Minuten (Docker oder Desktop-Installer).
- Typischer Workflow: Workspace pro Abteilung, eigene Dokument-Sammlungen, jeder Workspace bindet ein eigenes LLM (Ollama, Anthropic, Mistral). RAG eingebaut – PDF rein, Frage stellen, Antwort mit Quellen.
- Best for: Wissensarbeit, internes Knowledge-Management, Onboarding-Assistenten.
- Stärke: Niedrigste Eintrittshürde aller Self-Hosting-Optionen. Auch ohne DevOps-Team betreibbar.
NanoClaw – Der sicherheitsfokussierte OpenClaw-Klon
8.400+ Stars, Container-Isolation pro Skill, WhatsApp-Integration. Setup: 30 Minuten (Docker Compose + Skill-Config).
- Typischer Workflow: Wie OpenClaw, aber jeder Skill läuft im eigenen Container mit Least-Privilege-Networking. Ideal für riskante Skills (Browser-Automation, Code-Execution).
- Best for: Teams, die OpenClaw-Power wollen, aber dessen Angriffsfläche verkleinern müssen.
- Stärke: Security-by-Design statt Security-Patch.
Der Routing-Layer: Privacy Router
Der Privacy Router ist unser eigenes Open-Source-Tool. Er sitzt zwischen Runtime und LLM und entscheidet pro Anfrage, welches Modell antwortet:
- Sensitiver Prompt (Personennamen, IBAN, Krankendaten) → lokales Modell (Ollama, vLLM).
- Generischer Prompt → günstiges Cloud-Modell (Haiku, Mini).
- Komplexer Reasoning-Prompt ohne PII → bestes Cloud-Modell (Sonnet, GPT).
Setup: 10 Minuten. Konfiguration als YAML, Regeln über RegEx + ML-Classifier.
- Typischer Workflow: Runtime ruft Privacy Router statt direkt OpenAI/Anthropic auf. Router klassifiziert, routet, loggt – Audit-Trail inklusive.
- Best for: Hybrid-Stacks, die Kostenoptimierung und DSGVO unter einen Hut bringen müssen.
Der Modell-Layer: Ollama, vLLM, llama.cpp
- Ollama – Eintrittshürde 0.
ollama run mistralund fertig. Best for: Laptops, Single-User, Prototypen. - vLLM – Production-grade. Paged-Attention, hoher Durchsatz, OpenAI-kompatible API. Best for: zentrale GPU-Server, Multi-User-Workloads.
- llama.cpp – Maximal portabel. Läuft auf Apple Silicon, CPU, eingebetteten Geräten. Best for: Edge-Szenarien.
Hardware-Layer (angekündigt): NVIDIA RTX Spark
Der angekündigte RTX Spark soll 1.700 Tokens/s liefern – genug, um 30B-Modelle für ein 50-Personen-Team in akzeptabler Latenz zu betreiben. Status: angekündigt, noch nicht verfügbar. Heute überbrückt man mit RTX 6000 Ada, H100 oder Apple-M-Studio-Clustern.
Quick-Select: Welcher Self-Hosting-Stack für welches Profil?
| Profil | Empfehlung | Warum |
|---|---|---|
| Schnellster Start | Anything LLM Desktop + Ollama | One-Click-Installer, RAG inklusive |
| Höchste Datenschutz-Kontrolle | Ontheia + Privacy Router + vLLM | Komplett on-premise, deterministisches Routing |
| Bestes Gesamtpaket | NanoClaw + Privacy Router + Ollama | Container-Isolation, hybrider Modell-Mix |
| Edge / Embedded | llama.cpp + eigene Runtime | Läuft auf jedem Gerät, kein Server nötig |
Typische Workflows nach Use-Case
- DSGVO-konformer interner Knowledge-Assistent: Anything LLM + Ollama (Mistral 7B) auf einem Workstation-PC. Dokumente bleiben im Haus, Antworten mit Quellen.
- Hybrid-Stack mit Kostenoptimierung: Ontheia → Privacy Router → (Ollama für PII | Claude Haiku für generisches | Claude Sonnet für komplexes). Spart 60–80% Cloud-Kosten bei voller Compliance.
- High-Risk-Skill (Browser-Automation): NanoClaw mit Container-Isolation. Skill darf nur eine Domain ansprechen, kein Filesystem-Zugriff, Network-Egress geloggt.
- Edge-Deployment (Maschine, Fahrzeug, Kiosk): llama.cpp + kleines 3B-Modell. Funktioniert offline, kein Cloud-Risiko.
- Pilot ohne IT-Budget: Anything LLM Desktop, lokal auf MacBook M3 mit Ollama. In 30 Minuten produktiv.
Empfehlung Till Freitag
Heute starten: Anything LLM + Ollama auf einer ordentlichen Workstation. Wenn der Pilot läuft: Migration auf Ontheia + Privacy Router + vLLM im eigenen Rechenzentrum. Sobald RTX Spark verfügbar ist: Hardware-Refresh – dann ist Local-AI-First für 50- bis 200-Personen-Teams ohne Latenzkompromiss machbar.
Den ganzen Marktüberblick findest du im Master-Artikel: Die besten OpenClaw-Alternativen 2026. Praktischen Step-by-Step gibt's im Self-Hosting-DSGVO-Guide.
Mehr zum Thema: Coding-Agent-Layer · Multi-Agent-Layer · Enterprise-Gateway-Layer · Privacy Router Guide · Master-Artikel

