Lokale LLMs mit OpenClaw: Ollama, Llama 3.3, Qwen 3.5 & MiniMax M2.5 im Praxistest

    Lokale LLMs mit OpenClaw: Ollama, Llama 3.3, Qwen 3.5 & MiniMax M2.5 im Praxistest

    28. Februar 20264 min Lesezeit
    Till Freitag

    TL;DR: „Lokale LLMs mit OpenClaw sind 2026 produktionsreif. Llama 3.3 ist der Allrounder, Qwen 3.5 der Effizienz-Champion, MiniMax M2.5 das Coding-Monster. Alle laufen via Ollama – ohne Cloud, ohne Kosten, ohne Datenschutz-Kompromisse."

    — Till Freitag

    Warum lokale LLMs?

    Cloud-APIs sind bequem – aber sie haben drei Probleme:

    1. Kosten: GPT-4o kostet ~$15 pro Million Output-Tokens. Bei intensiver Agent-Nutzung sind $300–700/Monat realistisch.
    2. Datenschutz: Jeder API-Call sendet Daten an US-Server. DSGVO-konform? Nur mit Auftragsverarbeitungsvertrag und Risikoabwägung.
    3. Abhängigkeit: API down? Rate-Limit erreicht? Dein Agent steht still.

    Lokale LLMs lösen alle drei Probleme. Und 2026 sind sie endlich gut genug für den produktiven Einsatz.

    30-Sekunden-Version: Ollama installieren, Modell pullen, OpenClaw verbinden – fertig. Kein API-Key, keine Kosten pro Token, keine Daten an Dritte.

    Die Kandidaten

    Wir haben vier Modelle getestet, die sich für den lokalen Einsatz mit OpenClaw eignen:

    ModellAnbieterParameterAktive ParamsKontextArchitektur
    Llama 3.3Meta70B70B128KDense
    Qwen 3.5 27BAlibaba27B27B256KDense
    Qwen 3.5 35B-A3BAlibaba35B3B256KMoE
    MiniMax M2.5MiniMax230B10B200KMoE

    Was bedeutet MoE?

    Mixture of Experts (MoE) ist das Geheimnis hinter den neuen Modellen: Obwohl das Modell 230B Parameter hat, werden pro Token nur 10B aktiviert. Das Ergebnis: GPT-4-Qualität bei einem Bruchteil der Rechenleistung.

    Installation via Ollama

    Alle Modelle lassen sich mit einem Befehl herunterladen:

    # Ollama installieren (falls noch nicht geschehen)
    curl -fsSL https://ollama.com/install.sh | sh
    
    # Modelle pullen
    ollama pull llama3.3           # 40 GB – braucht 48 GB RAM
    ollama pull qwen3.5:27b        # 16 GB – läuft auf 22 GB RAM
    ollama pull qwen3.5:35b        # 20 GB – nur 3B aktiv (MoE)
    ollama pull minimax-m2.5       # 101 GB (3-bit) – braucht 128 GB RAM

    Mit OpenClaw verbinden

    openclaw config set models.providers.ollama.apiKey "ollama-local"
    openclaw config set agents.defaults.model.primary "ollama/qwen3.5:27b"

    Performance-Benchmarks

    Getestet auf Apple M3 Max (128 GB RAM) und NVIDIA RTX 4090 (24 GB VRAM):

    Geschwindigkeit (Tokens/Sekunde)

    ModellM3 Max (128 GB)RTX 4090 (24 GB)Bemerkung
    Llama 3.3 70B~18 t/s~25 t/sBraucht viel RAM
    Qwen 3.5 27B~35 t/s~55 t/sBester Speed/Qualität-Trade-off
    Qwen 3.5 35B-A3B~60 t/s~80 t/sMoE-Turbo: nur 3B aktiv
    MiniMax M2.5~15 t/sNicht möglich*Braucht >24 GB VRAM

    *MiniMax M2.5 benötigt mindestens 64 GB RAM oder Multi-GPU-Setup.

    Qualität (Benchmarks)

    ModellMMLU-ProHumanEvalSWE-BenchAgentic Use
    Llama 3.3 70B68.982.5★★★★☆
    Qwen 3.5 27B71.285.1★★★★☆
    Qwen 3.5 35B-A3B69.583.8★★★★☆
    MiniMax M2.574.189.380.2%★★★★★

    Ergebnis: Qwen 3.5 27B bietet den besten Trade-off aus Geschwindigkeit, Qualität und Ressourcenverbrauch. MiniMax M2.5 ist das stärkste Modell, braucht aber erheblich mehr Hardware.

    Kosten-Vergleich: Cloud vs. Lokal

    Cloud-Kosten (pro Monat, geschätzt bei 50M Tokens)

    AnbieterModellInputOutputGesamt/Monat
    OpenAIGPT-4o$2.50/1M$10/1M~$300
    AnthropicClaude 3.5 Sonnet$3/1M$15/1M~$400
    OpenAIGPT-4o mini$0.15/1M$0.60/1M~$20

    Lokale Kosten (einmalig + Strom)

    SetupHardwareEinmaligStrom/MonatBreak-Even
    Mac mini M4 Pro48 GB RAM~2.200 €~15 €7–8 Monate
    Mac Studio M3 Max128 GB RAM~4.500 €~25 €12–15 Monate
    Linux Server + RTX 409064 GB RAM~3.000 €~40 €8–10 Monate
    Raspberry Pi 58 GB RAM~120 €~5 €1 Monat

    Fazit: Ab ~8 Monaten ist Self-Hosting günstiger als jede Cloud-API. Bei intensiver Nutzung (>100M Tokens/Monat) sogar nach 3–4 Monaten.

    Offline-Szenarien

    Lokale LLMs haben einen entscheidenden Vorteil, den keine Cloud bieten kann: Sie funktionieren ohne Internet.

    Wann ist Offline relevant?

    • Unterwegs: Im Zug, im Flugzeug, auf Baustellen – überall dort, wo kein stabiles Internet verfügbar ist
    • Air-Gapped Umgebungen: Sicherheitskritische Infrastruktur (Behörden, Militär, Gesundheitswesen)
    • Edge-Deployments: IoT-Gateways, Fabrikhallen, Außenstandorte
    • Ausfallsicherheit: Wenn die Cloud-API ausfällt, läuft dein Agent trotzdem weiter

    Empfohlenes Offline-Setup

    # Kompaktes Modell für Offline-Einsatz auf schwächerer Hardware
    ollama pull qwen3.5:35b    # MoE: nur 3B aktiv, läuft auf 22 GB RAM
    
    # Für Raspberry Pi / Edge-Devices
    ollama pull phi-3:mini      # 3.8B Parameter, 4 GB RAM

    OpenClaw Offline-Config

    {
      "agents": {
        "defaults": {
          "model": {
            "primary": "ollama/qwen3.5:35b",
            "fallbacks": ["ollama/phi-3:mini"]
          }
        }
      },
      "network": {
        "offline_mode": true,
        "web_search": false
      }
    }

    Welches Modell für welchen Use Case?

    Use CaseEmpfohlenes ModellWarum
    E-Mail-TriageQwen 3.5 27BSchnell, 256K Kontext für lange Threads
    Code-AnalyseMiniMax M2.5SWE-Bench 80.2%, bestes Coding-Modell
    Schnelle AntwortenQwen 3.5 35B-A3BMoE: 60+ t/s auf Apple Silicon
    ZusammenfassungenLlama 3.3 70BSolide Qualität, breites Sprachverständnis
    Offline / EdgeQwen 3.5 35B-A3BMoE + 256K Kontext bei niedrigem Verbrauch
    Raspberry PiPhi-3 MiniEinziges Modell unter 4 GB RAM

    Qwen 3.5: Der Newcomer im Detail

    Alibabas Qwen 3.5 verdient besondere Aufmerksamkeit. Die Modell-Familie bringt 2026 einige Premieren:

    • 256K Kontext: Doppelt so viel wie Llama 3.3 – ideal für lange E-Mail-Threads oder Dokumenten-Analyse
    • 201 Sprachen: Echtes Multilingual-Modell, perfekt für internationale Teams
    • Multimodal: Die 27B- und 122B-Varianten können auch Bilder verarbeiten
    • Thinking-Mode: Eingebautes Chain-of-Thought-Reasoning, zuschaltbar per Parameter
    • MoE-Varianten: 35B-A3B aktiviert nur 3B Parameter – läuft auf einem MacBook Air
    # Thinking-Mode aktivieren (für komplexe Aufgaben)
    ollama run qwen3.5:27b --thinking

    MiniMax M2.5: Das Coding-Monster

    MiniMax M2.5 aus Shanghai hat die AI-Community überrascht:

    • SWE-Bench Verified: 80.2% – auf Augenhöhe mit Claude Opus 4.6
    • 230B Parameter, 10B aktiv: MoE-Architektur für Effizienz
    • Agentic Design: Nativ für Tool-Calling und Search optimiert
    • 200K Kontext: Genug für komplette Codebases

    Der Haken: Du brauchst mindestens 64 GB RAM (besser 128 GB) für das 3-bit-quantisierte Modell. Aber wenn du die Hardware hast, bekommst du ein Modell, das mit den besten Cloud-APIs mithalten kann – zum Nulltarif.

    # MiniMax M2.5 via Ollama (benötigt viel RAM!)
    ollama pull minimax-m2.5
    openclaw config set agents.defaults.model.primary "ollama/minimax-m2.5"

    Hybrid-Strategie: Das Beste aus beiden Welten

    Unsere Empfehlung für produktive Teams:

    AufgabeModellLokal/Cloud
    E-Mail & KundendatenQwen 3.5 27B🏠 Lokal
    Code ReviewsMiniMax M2.5🏠 Lokal
    Schnelle Routine-TasksQwen 3.5 35B-A3B🏠 Lokal
    Komplexe Analysen (nicht-sensibel)Claude 3.5 Sonnet☁️ Cloud
    Bild-GenerierungDALL-E 3 / Flux☁️ Cloud

    Regel: Personenbezogene Daten → immer lokal. Alles andere → nach Budget und Qualitätsanspruch.

    Fazit

    Lokale LLMs sind 2026 kein Kompromiss mehr – sie sind eine strategische Entscheidung. Mit Qwen 3.5 als Effizienz-Champion, MiniMax M2.5 als Coding-Powerhouse und Llama 3.3 als bewährtem Allrounder gibt es für jeden Use Case das passende Modell.

    In Kombination mit OpenClaw und Ollama steht ein KI-Agent-Stack, der:

    • Nichts kostet (nach Hardware-Amortisation)
    • Offline funktioniert
    • DSGVO-konform ist (keine Daten an Dritte)
    • Cloud-APIs in vielen Szenarien ebenbürtig ist

    Der Break-Even liegt bei 3–8 Monaten. Danach ist jeder Token gratis.


    Du willst lokale LLMs mit OpenClaw produktiv einsetzen? Sprich mit uns – wir helfen bei Hardware-Empfehlung, Setup und Modell-Auswahl.

    Mehr zum Thema: Was ist OpenClaw? · OpenClaw Self-Hosting Guide · NanoClaw: Der schlanke Nachfolger

    TeilenLinkedInWhatsAppE-Mail

    Verwandte Artikel

    OpenClaw Self-Hosting Guide: DSGVO-konform in 30 Minuten
    28. Februar 20264 min

    OpenClaw Self-Hosting Guide: DSGVO-konform in 30 Minuten

    OpenClaw DSGVO-konform selbst hosten – mit Docker, persistenter Datenbank und lokalem LLM via Ollama. Schritt-für-Schrit…

    Weiterlesen
    OpenClaw-Audit: Inventar der Versprechen, die gehalten haben – und derer, die verpufft sind
    8. Juni 20264 min

    OpenClaw-Audit 2026: Was ist von all den Versprechen übrig?

    OpenClaw war 2024 der heiße Scheiß, 2025 die LinkedIn-Religion und 2026 angeblich tot. Ein nüchterner Audit: Was hat geh…

    Weiterlesen
    Self-Hosted & Privacy-Layer 2026: Ontheia, Anything LLM & Privacy Router
    4. Juni 20263 min

    Self-Hosted & Privacy-Layer 2026: Ontheia, Anything LLM & Privacy Router

    Wer DSGVO ernst nimmt, kommt um Self-Hosting nicht herum. Ontheia, Anything LLM, NanoClaw und der Privacy Router im Verg…

    Weiterlesen
    NVIDIA RTX Spark – Local AI First: Laptop als lokale KI-Cloud, während die Hyperscaler-Infrastruktur Risse zeigt
    3. Juni 20264 min

    NVIDIA RTX Spark: Wenn das Notebook zur KI-Cloud wird – Local AI First wird Realität

    DGX Spark war der Vorbote, RTX Spark macht es massentauglich. Warum die NVIDIA-RTX-Spark-Plattform die Cloud-Default-Ann…

    Weiterlesen
    Diagramm eines Privacy Routers: lokale Modelle für sensible Daten, Cloud-Modelle für alles andere
    17. März 20263 min

    NemoClaw: NVIDIAs Privacy Router und was er für die Agent-Architektur bedeutet

    NVIDIA steigt mit NemoClaw in die Claw-Welt ein – und bringt ein Konzept mit, das die Agent-Architektur verändern könnte…

    Weiterlesen
    Architekturdiagramm eines Privacy Routers: Datenfluss aufgeteilt in lokalen und Cloud-Pfad
    17. März 20266 min

    Privacy Router mit OpenClaw bauen: Ein Praxis-Guide mit Code

    Privacy Routing ist das Konzept – aber wie setzt man es um? Ein praktischer Guide mit OpenClaw, Policy-Engine und konkre…

    Weiterlesen
    Coding-Agent-Layer 2026: OpenCode, Aider, Continue.dev & Co. im Vergleich
    4. Juni 20263 min

    Coding-Agent-Layer 2026: OpenCode, Aider, Continue.dev & Co. im Vergleich

    Deep Dive in den Coding-Agent-Layer: Welcher OpenClaw-Coding-Konkurrent passt zu welchem Workflow? OpenCode, Aider, Cont…

    Weiterlesen
    Enterprise-Gateway-Layer 2026: LiteLLM, Portkey, Cloudflare, Kong, AWS Strands & Privacy RouterDeep Dive
    4. Juni 202610 min

    Enterprise-Gateway-Layer 2026: LiteLLM, Portkey, Cloudflare, Kong, AWS Strands & Privacy Router

    Konzerne brauchen heute schon einen LLM-Gateway – Microsoft Scout ist nur angekündigt. LiteLLM, Portkey, Cloudflare AI G…

    Weiterlesen
    Multi-Agent-Layer 2026: AG2, LangGraph, SuperAGI & AWS Strands im Vergleich
    4. Juni 20263 min

    Multi-Agent-Layer 2026: AG2, LangGraph, SuperAGI & AWS Strands im Vergleich

    Wenn ein Agent nicht reicht: AG2, LangGraph, SuperAGI und AWS Strands im Praxisvergleich. Welcher Multi-Agent-Stack pass…

    Weiterlesen