Self-Hosted & Privacy-Layer 2026: Ontheia, Anything LLM & Privacy Router

    Self-Hosted & Privacy-Layer 2026: Ontheia, Anything LLM & Privacy Router

    4. Juni 20263 min read
    Till Freitag

    TL;DR: „DSGVO-konforme KI ist 2026 keine Theorie mehr. Ontheia + Privacy Router + Ollama liefern den vollständigen Local-AI-First-Stack – heute schon, ohne Hyperscaler. Sobald RTX Spark verfügbar ist, wird das zur Default-Option für Mittelstand und Konzern."

    — Till Freitag

    Warum überhaupt self-hosten?

    Drei Treiber bringen Mittelständler und Konzerne 2026 zum Self-Hosting:

    1. DSGVO & Schrems II – Prompts mit Kundendaten dürfen nicht in die USA.
    2. Branchen-Regulierung – BaFin, KRITIS, Pharma, Behörden verlangen On-premise oder zumindest EU-Hoheit.
    3. Kostenkontrolle – wer 100+ Mitarbeiter mit LLMs ausstattet, zahlt schnell 5-stellig pro Monat an Anthropic/OpenAI.

    Self-Hosting heißt nicht „LLM kaufen und vergessen". Es heißt: Runtime (Agent), Routing-Layer (Privacy-aware), Modell-Layer (lokales LLM) sauber trennen. Genau diese drei Bausteine schauen wir uns an.

    Die Runtime-Schicht: Ontheia, Anything LLM, NanoClaw

    Ontheia – Die EU-native Open-Source-Runtime

    TypeScript, Docker, AGPL-3.0. Spricht Anthropic, OpenAI, Gemini, Grok und Ollama out of the box. Setup: 15 Minuten (Docker Compose).

    • Typischer Workflow: Ontheia als zentrale Agent-Runtime im eigenen Rechenzentrum. Anwender chatten über ein eigenes Webfrontend, Skills laufen auf eigener Infrastruktur, Daten verlassen das Haus nie.
    • Best for: EU-Mittelständler, die ein OpenClaw-ähnliches Erlebnis ohne Anthropic-Bindung wollen.
    • Stärke: AGPL zwingt Forks zur Offenheit – planbare Roadmap, keine Embrace-Extend-Extinguish-Gefahr.

    Anything LLM – Der All-in-One-Hub

    34.000+ Stars. RAG, Multi-LLM, Workspace-Konzept, Browser-UI, Desktop-App. Setup: 20 Minuten (Docker oder Desktop-Installer).

    • Typischer Workflow: Workspace pro Abteilung, eigene Dokument-Sammlungen, jeder Workspace bindet ein eigenes LLM (Ollama, Anthropic, Mistral). RAG eingebaut – PDF rein, Frage stellen, Antwort mit Quellen.
    • Best for: Wissensarbeit, internes Knowledge-Management, Onboarding-Assistenten.
    • Stärke: Niedrigste Eintrittshürde aller Self-Hosting-Optionen. Auch ohne DevOps-Team betreibbar.

    NanoClaw – Der sicherheitsfokussierte OpenClaw-Klon

    8.400+ Stars, Container-Isolation pro Skill, WhatsApp-Integration. Setup: 30 Minuten (Docker Compose + Skill-Config).

    • Typischer Workflow: Wie OpenClaw, aber jeder Skill läuft im eigenen Container mit Least-Privilege-Networking. Ideal für riskante Skills (Browser-Automation, Code-Execution).
    • Best for: Teams, die OpenClaw-Power wollen, aber dessen Angriffsfläche verkleinern müssen.
    • Stärke: Security-by-Design statt Security-Patch.

    Der Routing-Layer: Privacy Router

    Der Privacy Router ist unser eigenes Open-Source-Tool. Er sitzt zwischen Runtime und LLM und entscheidet pro Anfrage, welches Modell antwortet:

    • Sensitiver Prompt (Personennamen, IBAN, Krankendaten) → lokales Modell (Ollama, vLLM).
    • Generischer Prompt → günstiges Cloud-Modell (Haiku, Mini).
    • Komplexer Reasoning-Prompt ohne PII → bestes Cloud-Modell (Sonnet, GPT).

    Setup: 10 Minuten. Konfiguration als YAML, Regeln über RegEx + ML-Classifier.

    • Typischer Workflow: Runtime ruft Privacy Router statt direkt OpenAI/Anthropic auf. Router klassifiziert, routet, loggt – Audit-Trail inklusive.
    • Best for: Hybrid-Stacks, die Kostenoptimierung und DSGVO unter einen Hut bringen müssen.

    Der Modell-Layer: Ollama, vLLM, llama.cpp

    • Ollama – Eintrittshürde 0. ollama run mistral und fertig. Best for: Laptops, Single-User, Prototypen.
    • vLLM – Production-grade. Paged-Attention, hoher Durchsatz, OpenAI-kompatible API. Best for: zentrale GPU-Server, Multi-User-Workloads.
    • llama.cpp – Maximal portabel. Läuft auf Apple Silicon, CPU, eingebetteten Geräten. Best for: Edge-Szenarien.

    Hardware-Layer (angekündigt): NVIDIA RTX Spark

    Der angekündigte RTX Spark soll 1.700 Tokens/s liefern – genug, um 30B-Modelle für ein 50-Personen-Team in akzeptabler Latenz zu betreiben. Status: angekündigt, noch nicht verfügbar. Heute überbrückt man mit RTX 6000 Ada, H100 oder Apple-M-Studio-Clustern.

    Quick-Select: Welcher Self-Hosting-Stack für welches Profil?

    Profil Empfehlung Warum
    Schnellster Start Anything LLM Desktop + Ollama One-Click-Installer, RAG inklusive
    Höchste Datenschutz-Kontrolle Ontheia + Privacy Router + vLLM Komplett on-premise, deterministisches Routing
    Bestes Gesamtpaket NanoClaw + Privacy Router + Ollama Container-Isolation, hybrider Modell-Mix
    Edge / Embedded llama.cpp + eigene Runtime Läuft auf jedem Gerät, kein Server nötig

    Typische Workflows nach Use-Case

    • DSGVO-konformer interner Knowledge-Assistent: Anything LLM + Ollama (Mistral 7B) auf einem Workstation-PC. Dokumente bleiben im Haus, Antworten mit Quellen.
    • Hybrid-Stack mit Kostenoptimierung: Ontheia → Privacy Router → (Ollama für PII | Claude Haiku für generisches | Claude Sonnet für komplexes). Spart 60–80% Cloud-Kosten bei voller Compliance.
    • High-Risk-Skill (Browser-Automation): NanoClaw mit Container-Isolation. Skill darf nur eine Domain ansprechen, kein Filesystem-Zugriff, Network-Egress geloggt.
    • Edge-Deployment (Maschine, Fahrzeug, Kiosk): llama.cpp + kleines 3B-Modell. Funktioniert offline, kein Cloud-Risiko.
    • Pilot ohne IT-Budget: Anything LLM Desktop, lokal auf MacBook M3 mit Ollama. In 30 Minuten produktiv.

    Empfehlung Till Freitag

    Heute starten: Anything LLM + Ollama auf einer ordentlichen Workstation. Wenn der Pilot läuft: Migration auf Ontheia + Privacy Router + vLLM im eigenen Rechenzentrum. Sobald RTX Spark verfügbar ist: Hardware-Refresh – dann ist Local-AI-First für 50- bis 200-Personen-Teams ohne Latenzkompromiss machbar.

    Den ganzen Marktüberblick findest du im Master-Artikel: Die besten OpenClaw-Alternativen 2026. Praktischen Step-by-Step gibt's im Self-Hosting-DSGVO-Guide.

    Mehr zum Thema: Coding-Agent-Layer · Multi-Agent-Layer · Enterprise-Gateway-Layer · Privacy Router Guide · Master-Artikel

    TeilenLinkedInWhatsAppE-Mail

    Related Articles

    Die besten OpenClaw-Alternativen 2026 – von NanoClaw bis NullClawDeep Dive
    February 21, 202620 min

    Die besten OpenClaw-Alternativen 2026 – von NanoClaw bis NullClaw

    OpenClaw hat 200.000+ GitHub Stars – aber nicht jeder braucht 430.000 Zeilen Code. Wir vergleichen 22 Alternativen Mitte…

    Read more
    Coding-Agent-Layer 2026: OpenCode, Aider, Continue.dev & Co. im Vergleich
    June 4, 20263 min

    Coding-Agent-Layer 2026: OpenCode, Aider, Continue.dev & Co. im Vergleich

    Deep Dive in den Coding-Agent-Layer: Welcher OpenClaw-Coding-Konkurrent passt zu welchem Workflow? OpenCode, Aider, Cont…

    Read more
    Enterprise-Gateway-Layer 2026: LiteLLM, Portkey, Cloudflare, Kong, AWS Strands & Privacy RouterDeep Dive
    June 4, 202610 min

    Enterprise-Gateway-Layer 2026: LiteLLM, Portkey, Cloudflare, Kong, AWS Strands & Privacy Router

    Konzerne brauchen heute schon einen LLM-Gateway – Microsoft Scout ist nur angekündigt. LiteLLM, Portkey, Cloudflare AI G…

    Read more
    Multi-Agent-Layer 2026: AG2, LangGraph, SuperAGI & AWS Strands im Vergleich
    June 4, 20263 min

    Multi-Agent-Layer 2026: AG2, LangGraph, SuperAGI & AWS Strands im Vergleich

    Wenn ein Agent nicht reicht: AG2, LangGraph, SuperAGI und AWS Strands im Praxisvergleich. Welcher Multi-Agent-Stack pass…

    Read more
    OpenFang Agent Operating System Architektur mit 7 autonomen Hands und Rust-Kern
    March 14, 20265 min

    OpenFang Deep Dive – Das erste Agent Operating System im Detail

    OpenFang ist kein Agent-Framework – es ist ein Agent Operating System. 7 autonome Hands, 38 Tools, 40 Messaging-Kanäle. …

    Read more
    ZeroClaw KI-Agent in Rust – minimaler Footprint, maximale Performance
    March 14, 20265 min

    ZeroClaw Deep Dive – NullClaws Nachfolger in Rust im Detail

    ZeroClaw ist der Rust-Nachfolger von NullClaw – mit 26.800+ GitHub Stars, Single-Binary-Deployment und 99% kleinerem Foo…

    Read more
    Open-Source-LLMs im Vergleich 2026 – 25+ Modelle, die du kennen solltestDeep Dive
    March 7, 202610 min

    Open-Source-LLMs im Vergleich 2026 – 25+ Modelle, die du kennen solltest

    Von Llama über Qwen bis Gemma 4: Alle wichtigen Open-Source-LLMs im Überblick – mit GitHub-Stars, Parametern, Lizenzen u…

    Read more
    OpenClaw Self-Hosting Guide: DSGVO-konform in 30 Minuten
    February 28, 20264 min

    OpenClaw Self-Hosting Guide: DSGVO-konform in 30 Minuten

    OpenClaw DSGVO-konform selbst hosten – mit Docker, persistenter Datenbank und lokalem LLM via Ollama. Schritt-für-Schrit…

    Read more
    NanoClaw: Der schlanke Nachfolger von OpenClaw – KI-Agent für die Hosentasche
    February 21, 20263 min

    NanoClaw: Der schlanke Nachfolger von OpenClaw – KI-Agent für die Hosentasche

    NanoClaw ist der minimalistische Nachfolger von OpenClaw – ein KI-Agent, der auf Raspberry Pi läuft, per WhatsApp steuer…

    Read more