Projekt KNUT: 52 GB VRAM, null Cloud – lokale AI-Infrastruktur im Deep Dive

10. April 2026Aktualisiert: 11. April 20264 min Lesezeit

TL;DR: „KNUT kombiniert einen Mac Mini M4 (24 GB), eine RTX 4060 Ti (16 GB) und eine RTX 3060 (12 GB) zu 52 GB VRAM. Darauf laufen Qwen 3.5 35B und Nemotron Cascade 2 30B mit bis zu 54 Tokens/Sekunde – 15x schneller als du sprichst. Alles lokal, alles OpenAI-kompatibel."

— Till Freitag

KNUT – vom altnordischen Knútr für Knoten

KNUT steht nicht für ein Akronym. Der Name kommt vom altnordischen Knútr – der Knoten. Und genau das beschreibt die Architektur: verschiedene Hardware-Nodes, zu einem Knoten verwoben, der sich wie ein einziger Inference-Server verhält.

Das Setup:

Komponente	RAM/VRAM	Rolle
Mac Mini M4	24 GB Unified Memory	Metal-Inference, Orchestrator
NVIDIA RTX 4060 Ti	16 GB VRAM	CUDA-Inference, primäre GPU
NVIDIA RTX 3060	12 GB VRAM	CUDA-Inference, sekundäre GPU
Gesamt	52 GB VRAM

Drei Geräte. Zwei Architekturen (Metal + CUDA). Ein Endpoint.

Was darauf läuft – und wie schnell

Aktuell laufen auf KNUT primär zwei Modelle:

Qwen 3.5 35B

Architektur: Mixture of Experts (MoE)
Parameter: 35 Milliarden (davon ~6B aktiv pro Anfrage)
Speed: ~36 Tokens/Sekunde
Qualität: Vergleichbar mit GPT-4o mini in den meisten Benchmarks

Nemotron Cascade 2 30B

Architektur: MoE mit kaskadierender Inferenz
Parameter: 30 Milliarden
Speed: ~54 Tokens/Sekunde
Qualität: Auf GPT-4o-mini-Niveau, optimiert für schnelle Inferenz

Beide Modelle nutzen MoE-Architekturen – das gleiche Prinzip wie bei Qwen3.5-122B, das in unserem vorherigen Artikel analysiert wurde. Der Unterschied: Statt 122B auf einem Laptop zu quetschen, verteilt KNUT 30-35B auf drei Nodes und erreicht damit deutlich höhere Geschwindigkeiten.

Zur Einordnung: Was bedeutet 54 t/s?

Zahlen ohne Kontext sind wertlos. Deshalb:

Metrik	Tokens/Sekunde
Mensch tippt	1–2 t/s
Mensch spricht	3–4 t/s
GPT-4o (API)	~80–120 t/s
KNUT (Nemotron)	~54 t/s
KNUT (Qwen 3.5)	~36 t/s

KNUT generiert 15x schneller als ein Mensch spricht. Für Coding-Assistenz, Workflow-Automatisierung, Textgenerierung und alltägliche LLM-Aufgaben ist das mehr als ausreichend – auch im Vergleich zu Cloud-APIs, bei denen Latenz, Rate Limits und Kosten dazukommen.

Die Architektur: Heterogene Hardware, ein API-Endpoint

Das Besondere an KNUT ist nicht die einzelne Hardware – sondern wie sie zusammenarbeitet:

Verteilte Inference über LAN: Die drei Nodes kommunizieren über das lokale Netzwerk. Modell-Layer werden intelligent auf die verfügbaren Ressourcen verteilt.
CUDA + Metal: KNUT kombiniert NVIDIA CUDA (Linux/Windows) mit Apple Metal (macOS) in einem System. Das ist ungewöhnlich – die meisten Setups beschränken sich auf eine Architektur.
OpenAI-kompatible API: Nach außen verhält sich KNUT wie ein OpenAI-Endpoint. Jedes Tool, das die OpenAI-API spricht, funktioniert out-of-the-box – Cursor, Continue, Open WebUI, n8n, Make, eigene Scripts.
Model Routing: Anfragen werden je nach Aufgabe an das passende Modell geroutet. Schnelle Tasks an Nemotron, komplexeres Reasoning an Qwen 3.5.

┌─────────────────────────────────────────┐
│            OpenAI-kompatible API         │
│              (ein Endpoint)              │
├──────────┬──────────┬───────────────────┤
│ Mac Mini │ RTX 4060 │    RTX 3060       │
│ M4 Metal │ Ti CUDA  │    CUDA           │
│  24 GB   │  16 GB   │    12 GB          │
├──────────┴──────────┴───────────────────┤
│         LAN – verteilte Inferenz        │
└─────────────────────────────────────────┘

Was das für Unternehmen bedeutet

Null laufende Kosten

Kein API-Key. Kein Abo. Kein Token-Budget, das am Monatsende explodiert. Die Hardware ist einmalig angeschafft – danach kostet jede Anfrage nur Strom. Bei aktuellen Strompreisen liegt ein KNUT-Setup bei geschätzt 0,02–0,05 € pro Stunde unter Last.

Volle Datensouveränität

Keine Daten verlassen das Netzwerk. Kein Auftragsverarbeitungsvertrag. Kein Risiko, dass ein US-Provider Trainingsdaten aus Prompts macht. Für DSGVO-sensible Branchen ist das nicht nice-to-have – es ist Pflicht.

Unabhängigkeit von Anbietern

Kein Vendor Lock-in. Kein Risiko, dass OpenAI die Preise erhöht, die API ändert oder ein Modell deprecated. Wer lokal betreibt, kontrolliert die Infrastruktur, die Modelle und den Zeitpunkt von Updates.

Immer verfügbar

Kein API-Outage. Kein Rate Limiting. Keine Wartungsfenster. KNUT läuft, solange Strom fließt.

Vergleich: KNUT vs. Cloud-APIs

Kriterium	KNUT (lokal)	Cloud-API (GPT-4o mini)
Kosten pro Token	0 €	$0.15–0.60/1M Tokens
Datenschutz	✅ Volle Kontrolle	⚠️ Daten bei US-Provider
Latenz (First Token)	~50ms (LAN)	200–500ms (Internet)
Durchsatz	36–54 t/s	80–120 t/s
Verfügbarkeit	99.9% (eigene Hardware)	99.5% (SLA-abhängig)
Multimodal	❌ Nur Text	✅ Text, Bild, Audio
Setup-Aufwand	Hoch	Niedrig

Wann KNUT die richtige Wahl ist

✅ Ja, wenn:

Sensible Daten verarbeitet werden (Verträge, HR, Finanzen, Gesundheit)
Hohes Volumen anfällt und Token-Kosten gespart werden sollen
AI in Workflows eingebaut wird, die 24/7 laufen
Unabhängigkeit von Cloud-Anbietern gewünscht ist
Intern AI getestet werden soll, ohne Budget-Freigabe für APIs

❌ Nein, wenn:

Multimodale Fähigkeiten gebraucht werden (Bild, Audio, Video)
State-of-the-Art Reasoning benötigt wird (Claude Opus, GPT-5)
Kein technisches Team für Setup und Wartung vorhanden ist
Das Volumen zu niedrig ist, um die Hardware zu rechtfertigen

KNUT Network: Die Waitlist

Hinter KNUT steht mehr als ein Hardware-Experiment. Unter knut.network entsteht eine Plattform, die lokale AI-Infrastruktur für Teams zugänglich machen will – mit vorkonfigurierten Setups, Model Routing und Enterprise-Features.

Was geplant ist:

Vorkonfigurierte Hardware-Bundles
Managed Model Updates
Team-Zugang mit Rollen und Audit-Logs
Integration in bestehende IT-Infrastruktur

👉 Zur Waitlist auf knut.network

Fazit

KNUT zeigt, was 2026 mit Off-the-Shelf-Hardware möglich ist: GPT-4o-mini-Niveau, 54 Tokens pro Sekunde, null Cloud-Abhängigkeit. Für ~2.500 € Hardwarekosten entsteht eine AI-Infrastruktur, die sich nach wenigen Monaten amortisiert – und die niemand abschalten kann.

Die Zukunft der AI ist nicht nur Cloud. Sie ist hybrid. Und sie beginnt mit einem Knoten.

→ Mehr über unsere AI-Services → Gemma 4: Frontier-Intelligenz auf dem Laptop – der Hype ist real → Qwen3.5: 122B Parameter auf deinem Laptop → Privacy Router: AI-Datenschutz ohne Kompromisse

TeilenLinkedIn WhatsApp E-Mail

Verwandte Artikel

28. Februar 20263 min

122 Milliarden Parameter auf deinem Laptop – was Qwen3.5 für dein Business bedeutet

Alibabas Qwen3.5 schlägt GPT-5-mini in fast allen Benchmarks – und läuft lokal auf einem Laptop. Was das für Unternehmen…

Open-Source-LLMs im Vergleich 2026 – 25+ Modelle, die du kennen solltest

Deep Dive

7. März 202610 min

Open-Source-LLMs im Vergleich 2026 – 25+ Modelle, die du kennen solltest

Von Llama über Qwen bis Gemma 4: Alle wichtigen Open-Source-LLMs im Überblick – mit GitHub-Stars, Parametern, Lizenzen u…

1. März 20264 min

GGUF, GGML, Safetensors – welches Format für dein lokales AI-Setup?

Wer AI lokal nutzen will, stolpert schnell über Dateiformate. GGUF, GGML, Safetensors – was ist was, wann brauchst du we…

Gemma 4 KI-Modell läuft auf kompaktem Mini-PC – Frontier-Intelligenz wird lokal

6. April 20264 min

Gemma 4: Frontier-Intelligenz auf dem Laptop – der Hype ist real

Googles Gemma 4 liefert GPT-4-Niveau in 14 GB. 85 Tokens pro Sekunde auf Consumer-Hardware, 256K Kontext, Function Calli…

13. März 20264 min

Hunter Alpha enttarnt: Nicht DeepSeek V4, sondern Xiaomis MiMo-V2-Pro

Hunter Alpha war nicht DeepSeek V4 – sondern Xiaomis MiMo-V2-Pro. Wir korrigieren unsere Analyse, ordnen ein was passier…

Visualisierung von Kimi K2.6 Long-Horizon Agents: Halbmond als Moonshot-Symbol mit verteilten Sub-Agent-Knoten über einem Koordinationsraster

Deep Dive

21. April 20268 min

Kimi K2.6: Warum die spannendste KI-Optimierung 2026 nicht Intelligenz ist – sondern Dauer

Moonshot AI hat gestern Kimi K2.6 open-sourced. 1 Billion Parameter, 300 Sub-Agents, 13 Stunden autonome Codeoptimierung…

Geopolitische KI-Landschaft zwischen westlicher und östlicher Technologie

Deep Dive

13. April 20268 min

Chinas KI-Offensive: Von Hunter Alpha bis DeepSeek V4 auf Huawei-Chips

Ein anonymes 1T-Modell, eine Verwechslung mit DeepSeek, und die Enthüllung, dass Xiaomi dahintersteckt. Gleichzeitig ste…

26. März 20264 min

Kimi K2.5: Das chinesische Open-Weight-Modell hinter Cursors Composer 2

Cursors Composer 2 basiert heimlich auf Moonshot AIs Kimi K2.5 – einem 1-Billionen-Parameter Open-Weight-Modell aus Peki…

Paperclip Control Plane: Org-Chart aus AI-Agenten mit CEO, Managern und Workern, Approval-Gates und Budget-Tracking

28. April 20266 min

Paperclip: Wenn OpenClaw der Mitarbeiter ist, ist Paperclip die Firma

Paperclip ist Open-Source-Infrastruktur, mit der du eine ganze KI-Firma führst – Org-Chart, Budgets, Approvals, Audit-Tr…