⏳ Dieser Artikel ist geplant für den 10. April 2026 und noch nicht öffentlich sichtbar.

    Projekt KNUT: 52 GB VRAM, null Cloud – so bauen wir unsere eigene AI-Infrastruktur

    Projekt KNUT: 52 GB VRAM, null Cloud – so bauen wir unsere eigene AI-Infrastruktur

    Malte LenschMalte Lensch10. April 20264 min Lesezeit
    Till Freitag

    TL;DR: „KNUT kombiniert einen Mac Mini M4 (24 GB), eine RTX 4060 Ti (16 GB) und eine RTX 3060 (12 GB) zu 52 GB VRAM. Darauf laufen Qwen 3.5 35B und Nemotron Cascade 2 30B mit bis zu 54 Tokens/Sekunde – 15x schneller als du sprichst. Alles lokal, alles OpenAI-kompatibel."

    — Till Freitag

    KNUT – vom altnordischen Knútr für Knoten

    KNUT steht nicht für ein Akronym. Der Name kommt vom altnordischen Knútr – der Knoten. Und genau das beschreibt die Architektur: verschiedene Hardware-Nodes, zu einem Knoten verwoben, der sich wie ein einziger Inference-Server verhält.

    Das Setup:

    Komponente RAM/VRAM Rolle
    Mac Mini M4 24 GB Unified Memory Metal-Inference, Orchestrator
    NVIDIA RTX 4060 Ti 16 GB VRAM CUDA-Inference, primäre GPU
    NVIDIA RTX 3060 12 GB VRAM CUDA-Inference, sekundäre GPU
    Gesamt 52 GB VRAM

    Drei Geräte. Zwei Architekturen (Metal + CUDA). Ein Endpoint.

    Was darauf läuft – und wie schnell

    Aktuell laufen auf KNUT primär zwei Modelle:

    Qwen 3.5 35B

    • Architektur: Mixture of Experts (MoE)
    • Parameter: 35 Milliarden (davon ~6B aktiv pro Anfrage)
    • Speed: ~36 Tokens/Sekunde
    • Qualität: Vergleichbar mit GPT-4o mini in den meisten Benchmarks

    Nemotron Cascade 2 30B

    • Architektur: MoE mit kaskadierender Inferenz
    • Parameter: 30 Milliarden
    • Speed: ~54 Tokens/Sekunde
    • Qualität: Auf GPT-4o-mini-Niveau, optimiert für schnelle Inferenz

    Beide Modelle nutzen MoE-Architekturen – das gleiche Prinzip wie bei Qwen3.5-122B, das wir bereits analysiert haben. Der Unterschied: Statt 122B auf einem Laptop zu quetschen, verteilen wir 30-35B auf drei Nodes und erreichen damit deutlich höhere Geschwindigkeiten.

    Zur Einordnung: Was bedeutet 54 t/s?

    Zahlen ohne Kontext sind wertlos. Deshalb:

    Metrik Tokens/Sekunde
    Mensch tippt 1–2 t/s
    Mensch spricht 3–4 t/s
    GPT-4o (API) ~80–120 t/s
    KNUT (Nemotron) ~54 t/s
    KNUT (Qwen 3.5) ~36 t/s

    KNUT generiert 15x schneller als du sprichst. Für Coding-Assistenz, Workflow-Automatisierung, Textgenerierung und alltägliche LLM-Aufgaben ist das mehr als ausreichend – auch im Vergleich zu Cloud-APIs, bei denen Latenz, Rate Limits und Kosten dazukommen.

    Die Architektur: Heterogene Hardware, ein API-Endpoint

    Das Besondere an KNUT ist nicht die einzelne Hardware – sondern wie sie zusammenarbeitet:

    1. Verteilte Inference über LAN: Die drei Nodes kommunizieren über das lokale Netzwerk. Modell-Layer werden intelligent auf die verfügbaren Ressourcen verteilt.

    2. CUDA + Metal: KNUT kombiniert NVIDIA CUDA (Linux/Windows) mit Apple Metal (macOS) in einem System. Das ist ungewöhnlich – die meisten Setups beschränken sich auf eine Architektur.

    3. OpenAI-kompatible API: Nach außen verhält sich KNUT wie ein OpenAI-Endpoint. Jedes Tool, das die OpenAI-API spricht, funktioniert out-of-the-box – Cursor, Continue, Open WebUI, n8n, Make, eigene Scripts.

    4. Model Routing: Anfragen werden je nach Aufgabe an das passende Modell geroutet. Schnelle Tasks an Nemotron, komplexeres Reasoning an Qwen 3.5.

    ┌─────────────────────────────────────────┐
                OpenAI-kompatible API         
                  (ein Endpoint)              
    ├──────────┬──────────┬───────────────────┤
     Mac Mini  RTX 4060     RTX 3060       
     M4 Metal  Ti CUDA      CUDA           
      24 GB     16 GB       12 GB          
    ├──────────┴──────────┴───────────────────┤
             LAN  verteilte Inferenz        
    └─────────────────────────────────────────┘

    Was das für Unternehmen bedeutet

    Null laufende Kosten

    Kein API-Key. Kein Abo. Kein Token-Budget, das am Monatsende explodiert. Die Hardware ist einmalig angeschafft – danach kostet jede Anfrage nur Strom. Bei aktuellen Strompreisen liegt KNUT bei geschätzt 0,02–0,05 € pro Stunde unter Last.

    Volle Datensouveränität

    Keine Daten verlassen dein Netzwerk. Kein Auftragsverarbeitungsvertrag. Kein Risiko, dass ein US-Provider Trainingsdaten aus deinen Prompts macht. Für DSGVO-sensible Branchen ist das nicht nice-to-have – es ist Pflicht.

    Unabhängigkeit von Anbietern

    Kein Vendor Lock-in. Kein Risiko, dass OpenAI die Preise erhöht, die API ändert oder dein Modell deprecated. Du kontrollierst die Infrastruktur, die Modelle und den Zeitpunkt von Updates.

    Immer verfügbar

    Kein API-Outage. Kein Rate Limiting. Keine Wartungsfenster. KNUT läuft, solange Strom fließt.

    Vergleich: KNUT vs. Cloud-APIs

    Kriterium KNUT (lokal) Cloud-API (GPT-4o mini)
    Kosten pro Token 0 € $0.15–0.60/1M Tokens
    Datenschutz ✅ Volle Kontrolle ⚠️ Daten bei US-Provider
    Latenz (First Token) ~50ms (LAN) 200–500ms (Internet)
    Durchsatz 36–54 t/s 80–120 t/s
    Verfügbarkeit 99.9% (eigene Hardware) 99.5% (SLA-abhängig)
    Multimodal ❌ Nur Text ✅ Text, Bild, Audio
    Setup-Aufwand Hoch Niedrig

    Wann KNUT die richtige Wahl ist

    Ja, wenn:

    • Du sensible Daten verarbeitest (Verträge, HR, Finanzen, Gesundheit)
    • Du hohes Volumen hast und Token-Kosten sparen willst
    • Du AI in Workflows einbaust, die 24/7 laufen
    • Du Unabhängigkeit von Cloud-Anbietern willst
    • Du intern AI testen willst, ohne Budget-Freigabe für APIs

    Nein, wenn:

    • Du multimodale Fähigkeiten brauchst (Bild, Audio, Video)
    • Du State-of-the-Art Reasoning brauchst (Claude Opus, GPT-5)
    • Du kein technisches Team für Setup und Wartung hast
    • Dein Volumen zu niedrig ist, um die Hardware zu rechtfertigen

    KNUT Network: Die Waitlist

    Wir bauen KNUT nicht nur für uns. Unter knut.network entsteht eine Plattform, die lokale AI-Infrastruktur für Teams zugänglich macht – mit vorkonfigurierten Setups, Model Routing und Enterprise-Features.

    Was geplant ist:

    • Vorkonfigurierte Hardware-Bundles
    • Managed Model Updates
    • Team-Zugang mit Rollen und Audit-Logs
    • Integration in bestehende IT-Infrastruktur

    👉 Zur Waitlist auf knut.network

    Fazit

    KNUT zeigt, was 2026 mit Off-the-Shelf-Hardware möglich ist: GPT-4o-mini-Niveau, 54 Tokens pro Sekunde, null Cloud-Abhängigkeit. Für ~2.500 € Hardwarekosten bekommst du eine AI-Infrastruktur, die sich nach wenigen Monaten amortisiert – und die dir niemand abschalten kann.

    Die Zukunft der AI ist nicht nur Cloud. Sie ist hybrid. Und sie beginnt mit einem Knoten.

    → Mehr über unsere AI-Services → Gemma 4: Frontier-Intelligenz auf dem Laptop – der Hype ist real → Qwen3.5: 122B Parameter auf deinem Laptop → Privacy Router: AI-Datenschutz ohne Kompromisse

    TeilenLinkedInWhatsAppE-Mail

    Verwandte Artikel

    122 Milliarden Parameter auf deinem Laptop – was Qwen3.5 für dein Business bedeutet
    28. Februar 20263 min

    122 Milliarden Parameter auf deinem Laptop – was Qwen3.5 für dein Business bedeutet

    Alibabas Qwen3.5 schlägt GPT-5-mini in fast allen Benchmarks – und läuft lokal auf einem Laptop. Was das für Unternehmen…

    Weiterlesen
    Open-Source-LLMs im Vergleich 2026 – 25+ Modelle, die du kennen solltestDeep Dive
    7. März 20268 min

    Open-Source-LLMs im Vergleich 2026 – 25+ Modelle, die du kennen solltest

    Von Llama über Qwen bis Gemma 4: Alle wichtigen Open-Source-LLMs im Überblick – mit GitHub-Stars, Parametern, Lizenzen u…

    Weiterlesen
    GGUF, GGML, Safetensors – welches Format für dein lokales AI-Setup?
    1. März 20264 min

    GGUF, GGML, Safetensors – welches Format für dein lokales AI-Setup?

    Wer AI lokal nutzen will, stolpert schnell über Dateiformate. GGUF, GGML, Safetensors – was ist was, wann brauchst du we…

    Weiterlesen
    Gemma 4 KI-Modell läuft auf kompaktem Mini-PC – Frontier-Intelligenz wird lokal
    6. April 20264 min

    Gemma 4: Frontier-Intelligenz auf dem Laptop – der Hype ist real

    Googles Gemma 4 liefert GPT-4-Niveau in 14 GB. 85 Tokens pro Sekunde auf Consumer-Hardware, 256K Kontext, Function Calli…

    Weiterlesen
    Hunter Alpha: Das größte kostenlose KI-Modell der Welt – und steckt DeepSeek V4 dahinter?
    13. März 20264 min

    Hunter Alpha: Das größte kostenlose KI-Modell der Welt – und steckt DeepSeek V4 dahinter?

    1 Billion Parameter, 1 Million Token Kontext, komplett kostenlos – Hunter Alpha ist das größte je veröffentlichte KI-Mod…

    Weiterlesen
    Kimi K2.5: Das chinesische Open-Weight-Modell hinter Cursors Composer 2
    26. März 20264 min

    Kimi K2.5: Das chinesische Open-Weight-Modell hinter Cursors Composer 2

    Cursors Composer 2 basiert heimlich auf Moonshot AIs Kimi K2.5 – einem 1-Billionen-Parameter Open-Weight-Modell aus Peki…

    Weiterlesen
    OpenClaw Preisschock: So vermeidest du die $500-Rechnung
    5. April 20262 min

    OpenClaw Preisschock: So vermeidest du die $500-Rechnung

    Anthropic streicht die Third-Party-Tool-Abdeckung unter Claude-Abos. Wer OpenClaw ohne Vorbereitung betreibt, zahlt bald…

    Weiterlesen
    OpenFang Agent Operating System Architektur mit 7 autonomen Hands und Rust-Kern
    14. März 20265 min

    OpenFang Deep Dive – Das erste Agent Operating System im Detail

    OpenFang ist kein Agent-Framework – es ist ein Agent Operating System. 7 autonome Hands, 38 Tools, 40 Messaging-Kanäle. …

    Weiterlesen
    ZeroClaw KI-Agent in Rust – minimaler Footprint, maximale Performance
    14. März 20265 min

    ZeroClaw Deep Dive – NullClaws Nachfolger in Rust im Detail

    ZeroClaw ist der Rust-Nachfolger von NullClaw – mit 26.800+ GitHub Stars, Single-Binary-Deployment und 99% kleinerem Foo…

    Weiterlesen