Projekt KNUT: 52 GB VRAM, null Cloud – lokale AI-Infrastruktur im Deep Dive

    Projekt KNUT: 52 GB VRAM, null Cloud – lokale AI-Infrastruktur im Deep Dive

    10. April 2026Aktualisiert: 11. April 20264 min Lesezeit
    Till Freitag

    TL;DR: „KNUT kombiniert einen Mac Mini M4 (24 GB), eine RTX 4060 Ti (16 GB) und eine RTX 3060 (12 GB) zu 52 GB VRAM. Darauf laufen Qwen 3.5 35B und Nemotron Cascade 2 30B mit bis zu 54 Tokens/Sekunde – 15x schneller als du sprichst. Alles lokal, alles OpenAI-kompatibel."

    — Till Freitag

    KNUT – vom altnordischen Knútr für Knoten

    KNUT steht nicht für ein Akronym. Der Name kommt vom altnordischen Knútr – der Knoten. Und genau das beschreibt die Architektur: verschiedene Hardware-Nodes, zu einem Knoten verwoben, der sich wie ein einziger Inference-Server verhält.

    Das Setup:

    Komponente RAM/VRAM Rolle
    Mac Mini M4 24 GB Unified Memory Metal-Inference, Orchestrator
    NVIDIA RTX 4060 Ti 16 GB VRAM CUDA-Inference, primäre GPU
    NVIDIA RTX 3060 12 GB VRAM CUDA-Inference, sekundäre GPU
    Gesamt 52 GB VRAM

    Drei Geräte. Zwei Architekturen (Metal + CUDA). Ein Endpoint.

    Was darauf läuft – und wie schnell

    Aktuell laufen auf KNUT primär zwei Modelle:

    Qwen 3.5 35B

    • Architektur: Mixture of Experts (MoE)
    • Parameter: 35 Milliarden (davon ~6B aktiv pro Anfrage)
    • Speed: ~36 Tokens/Sekunde
    • Qualität: Vergleichbar mit GPT-4o mini in den meisten Benchmarks

    Nemotron Cascade 2 30B

    • Architektur: MoE mit kaskadierender Inferenz
    • Parameter: 30 Milliarden
    • Speed: ~54 Tokens/Sekunde
    • Qualität: Auf GPT-4o-mini-Niveau, optimiert für schnelle Inferenz

    Beide Modelle nutzen MoE-Architekturen – das gleiche Prinzip wie bei Qwen3.5-122B, das in unserem vorherigen Artikel analysiert wurde. Der Unterschied: Statt 122B auf einem Laptop zu quetschen, verteilt KNUT 30-35B auf drei Nodes und erreicht damit deutlich höhere Geschwindigkeiten.

    Zur Einordnung: Was bedeutet 54 t/s?

    Zahlen ohne Kontext sind wertlos. Deshalb:

    Metrik Tokens/Sekunde
    Mensch tippt 1–2 t/s
    Mensch spricht 3–4 t/s
    GPT-4o (API) ~80–120 t/s
    KNUT (Nemotron) ~54 t/s
    KNUT (Qwen 3.5) ~36 t/s

    KNUT generiert 15x schneller als ein Mensch spricht. Für Coding-Assistenz, Workflow-Automatisierung, Textgenerierung und alltägliche LLM-Aufgaben ist das mehr als ausreichend – auch im Vergleich zu Cloud-APIs, bei denen Latenz, Rate Limits und Kosten dazukommen.

    Die Architektur: Heterogene Hardware, ein API-Endpoint

    Das Besondere an KNUT ist nicht die einzelne Hardware – sondern wie sie zusammenarbeitet:

    1. Verteilte Inference über LAN: Die drei Nodes kommunizieren über das lokale Netzwerk. Modell-Layer werden intelligent auf die verfügbaren Ressourcen verteilt.

    2. CUDA + Metal: KNUT kombiniert NVIDIA CUDA (Linux/Windows) mit Apple Metal (macOS) in einem System. Das ist ungewöhnlich – die meisten Setups beschränken sich auf eine Architektur.

    3. OpenAI-kompatible API: Nach außen verhält sich KNUT wie ein OpenAI-Endpoint. Jedes Tool, das die OpenAI-API spricht, funktioniert out-of-the-box – Cursor, Continue, Open WebUI, n8n, Make, eigene Scripts.

    4. Model Routing: Anfragen werden je nach Aufgabe an das passende Modell geroutet. Schnelle Tasks an Nemotron, komplexeres Reasoning an Qwen 3.5.

    ┌─────────────────────────────────────────┐
                OpenAI-kompatible API         
                  (ein Endpoint)              
    ├──────────┬──────────┬───────────────────┤
     Mac Mini  RTX 4060     RTX 3060       
     M4 Metal  Ti CUDA      CUDA           
      24 GB     16 GB       12 GB          
    ├──────────┴──────────┴───────────────────┤
             LAN  verteilte Inferenz        
    └─────────────────────────────────────────┘

    Was das für Unternehmen bedeutet

    Null laufende Kosten

    Kein API-Key. Kein Abo. Kein Token-Budget, das am Monatsende explodiert. Die Hardware ist einmalig angeschafft – danach kostet jede Anfrage nur Strom. Bei aktuellen Strompreisen liegt ein KNUT-Setup bei geschätzt 0,02–0,05 € pro Stunde unter Last.

    Volle Datensouveränität

    Keine Daten verlassen das Netzwerk. Kein Auftragsverarbeitungsvertrag. Kein Risiko, dass ein US-Provider Trainingsdaten aus Prompts macht. Für DSGVO-sensible Branchen ist das nicht nice-to-have – es ist Pflicht.

    Unabhängigkeit von Anbietern

    Kein Vendor Lock-in. Kein Risiko, dass OpenAI die Preise erhöht, die API ändert oder ein Modell deprecated. Wer lokal betreibt, kontrolliert die Infrastruktur, die Modelle und den Zeitpunkt von Updates.

    Immer verfügbar

    Kein API-Outage. Kein Rate Limiting. Keine Wartungsfenster. KNUT läuft, solange Strom fließt.

    Vergleich: KNUT vs. Cloud-APIs

    Kriterium KNUT (lokal) Cloud-API (GPT-4o mini)
    Kosten pro Token 0 € $0.15–0.60/1M Tokens
    Datenschutz ✅ Volle Kontrolle ⚠️ Daten bei US-Provider
    Latenz (First Token) ~50ms (LAN) 200–500ms (Internet)
    Durchsatz 36–54 t/s 80–120 t/s
    Verfügbarkeit 99.9% (eigene Hardware) 99.5% (SLA-abhängig)
    Multimodal ❌ Nur Text ✅ Text, Bild, Audio
    Setup-Aufwand Hoch Niedrig

    Wann KNUT die richtige Wahl ist

    Ja, wenn:

    • Sensible Daten verarbeitet werden (Verträge, HR, Finanzen, Gesundheit)
    • Hohes Volumen anfällt und Token-Kosten gespart werden sollen
    • AI in Workflows eingebaut wird, die 24/7 laufen
    • Unabhängigkeit von Cloud-Anbietern gewünscht ist
    • Intern AI getestet werden soll, ohne Budget-Freigabe für APIs

    Nein, wenn:

    • Multimodale Fähigkeiten gebraucht werden (Bild, Audio, Video)
    • State-of-the-Art Reasoning benötigt wird (Claude Opus, GPT-5)
    • Kein technisches Team für Setup und Wartung vorhanden ist
    • Das Volumen zu niedrig ist, um die Hardware zu rechtfertigen

    KNUT Network: Die Waitlist

    Hinter KNUT steht mehr als ein Hardware-Experiment. Unter knut.network entsteht eine Plattform, die lokale AI-Infrastruktur für Teams zugänglich machen will – mit vorkonfigurierten Setups, Model Routing und Enterprise-Features.

    Was geplant ist:

    • Vorkonfigurierte Hardware-Bundles
    • Managed Model Updates
    • Team-Zugang mit Rollen und Audit-Logs
    • Integration in bestehende IT-Infrastruktur

    👉 Zur Waitlist auf knut.network

    Fazit

    KNUT zeigt, was 2026 mit Off-the-Shelf-Hardware möglich ist: GPT-4o-mini-Niveau, 54 Tokens pro Sekunde, null Cloud-Abhängigkeit. Für ~2.500 € Hardwarekosten entsteht eine AI-Infrastruktur, die sich nach wenigen Monaten amortisiert – und die niemand abschalten kann.

    Die Zukunft der AI ist nicht nur Cloud. Sie ist hybrid. Und sie beginnt mit einem Knoten.

    → Mehr über unsere AI-Services → Gemma 4: Frontier-Intelligenz auf dem Laptop – der Hype ist real → Qwen3.5: 122B Parameter auf deinem Laptop → Privacy Router: AI-Datenschutz ohne Kompromisse

    TeilenLinkedInWhatsAppE-Mail

    Verwandte Artikel

    122 Milliarden Parameter auf deinem Laptop – was Qwen3.5 für dein Business bedeutet
    28. Februar 20263 min

    122 Milliarden Parameter auf deinem Laptop – was Qwen3.5 für dein Business bedeutet

    Alibabas Qwen3.5 schlägt GPT-5-mini in fast allen Benchmarks – und läuft lokal auf einem Laptop. Was das für Unternehmen…

    Weiterlesen
    Open-Source-LLMs im Vergleich 2026 – 25+ Modelle, die du kennen solltestDeep Dive
    7. März 202610 min

    Open-Source-LLMs im Vergleich 2026 – 25+ Modelle, die du kennen solltest

    Von Llama über Qwen bis Gemma 4: Alle wichtigen Open-Source-LLMs im Überblick – mit GitHub-Stars, Parametern, Lizenzen u…

    Weiterlesen
    GGUF, GGML, Safetensors – welches Format für dein lokales AI-Setup?
    1. März 20264 min

    GGUF, GGML, Safetensors – welches Format für dein lokales AI-Setup?

    Wer AI lokal nutzen will, stolpert schnell über Dateiformate. GGUF, GGML, Safetensors – was ist was, wann brauchst du we…

    Weiterlesen
    Gemma 4 KI-Modell läuft auf kompaktem Mini-PC – Frontier-Intelligenz wird lokal
    6. April 20264 min

    Gemma 4: Frontier-Intelligenz auf dem Laptop – der Hype ist real

    Googles Gemma 4 liefert GPT-4-Niveau in 14 GB. 85 Tokens pro Sekunde auf Consumer-Hardware, 256K Kontext, Function Calli…

    Weiterlesen
    Hunter Alpha enttarnt: Nicht DeepSeek V4, sondern Xiaomis MiMo-V2-Pro
    13. März 20264 min

    Hunter Alpha enttarnt: Nicht DeepSeek V4, sondern Xiaomis MiMo-V2-Pro

    Hunter Alpha war nicht DeepSeek V4 – sondern Xiaomis MiMo-V2-Pro. Wir korrigieren unsere Analyse, ordnen ein was passier…

    Weiterlesen
    Visualisierung von Kimi K2.6 Long-Horizon Agents: Halbmond als Moonshot-Symbol mit verteilten Sub-Agent-Knoten über einem KoordinationsrasterDeep Dive
    21. April 20268 min

    Kimi K2.6: Warum die spannendste KI-Optimierung 2026 nicht Intelligenz ist – sondern Dauer

    Moonshot AI hat gestern Kimi K2.6 open-sourced. 1 Billion Parameter, 300 Sub-Agents, 13 Stunden autonome Codeoptimierung…

    Weiterlesen
    Geopolitische KI-Landschaft zwischen westlicher und östlicher TechnologieDeep Dive
    13. April 20268 min

    Chinas KI-Offensive: Von Hunter Alpha bis DeepSeek V4 auf Huawei-Chips

    Ein anonymes 1T-Modell, eine Verwechslung mit DeepSeek, und die Enthüllung, dass Xiaomi dahintersteckt. Gleichzeitig ste…

    Weiterlesen
    Kimi K2.5: Das chinesische Open-Weight-Modell hinter Cursors Composer 2
    26. März 20264 min

    Kimi K2.5: Das chinesische Open-Weight-Modell hinter Cursors Composer 2

    Cursors Composer 2 basiert heimlich auf Moonshot AIs Kimi K2.5 – einem 1-Billionen-Parameter Open-Weight-Modell aus Peki…

    Weiterlesen
    Paperclip Control Plane: Org-Chart aus AI-Agenten mit CEO, Managern und Workern, Approval-Gates und Budget-Tracking
    28. April 20266 min

    Paperclip: Wenn OpenClaw der Mitarbeiter ist, ist Paperclip die Firma

    Paperclip ist Open-Source-Infrastruktur, mit der du eine ganze KI-Firma führst – Org-Chart, Budgets, Approvals, Audit-Tr…

    Weiterlesen