⏳ Dieser Artikel ist geplant für den 10. April 2026 und noch nicht öffentlich sichtbar.

Projekt KNUT: 52 GB VRAM, null Cloud – so bauen wir unsere eigene AI-Infrastruktur
TL;DR: „KNUT kombiniert einen Mac Mini M4 (24 GB), eine RTX 4060 Ti (16 GB) und eine RTX 3060 (12 GB) zu 52 GB VRAM. Darauf laufen Qwen 3.5 35B und Nemotron Cascade 2 30B mit bis zu 54 Tokens/Sekunde – 15x schneller als du sprichst. Alles lokal, alles OpenAI-kompatibel."
— Till FreitagKNUT – vom altnordischen Knútr für Knoten
KNUT steht nicht für ein Akronym. Der Name kommt vom altnordischen Knútr – der Knoten. Und genau das beschreibt die Architektur: verschiedene Hardware-Nodes, zu einem Knoten verwoben, der sich wie ein einziger Inference-Server verhält.
Das Setup:
| Komponente | RAM/VRAM | Rolle |
|---|---|---|
| Mac Mini M4 | 24 GB Unified Memory | Metal-Inference, Orchestrator |
| NVIDIA RTX 4060 Ti | 16 GB VRAM | CUDA-Inference, primäre GPU |
| NVIDIA RTX 3060 | 12 GB VRAM | CUDA-Inference, sekundäre GPU |
| Gesamt | 52 GB VRAM |
Drei Geräte. Zwei Architekturen (Metal + CUDA). Ein Endpoint.
Was darauf läuft – und wie schnell
Aktuell laufen auf KNUT primär zwei Modelle:
Qwen 3.5 35B
- Architektur: Mixture of Experts (MoE)
- Parameter: 35 Milliarden (davon ~6B aktiv pro Anfrage)
- Speed: ~36 Tokens/Sekunde
- Qualität: Vergleichbar mit GPT-4o mini in den meisten Benchmarks
Nemotron Cascade 2 30B
- Architektur: MoE mit kaskadierender Inferenz
- Parameter: 30 Milliarden
- Speed: ~54 Tokens/Sekunde
- Qualität: Auf GPT-4o-mini-Niveau, optimiert für schnelle Inferenz
Beide Modelle nutzen MoE-Architekturen – das gleiche Prinzip wie bei Qwen3.5-122B, das wir bereits analysiert haben. Der Unterschied: Statt 122B auf einem Laptop zu quetschen, verteilen wir 30-35B auf drei Nodes und erreichen damit deutlich höhere Geschwindigkeiten.
Zur Einordnung: Was bedeutet 54 t/s?
Zahlen ohne Kontext sind wertlos. Deshalb:
| Metrik | Tokens/Sekunde |
|---|---|
| Mensch tippt | 1–2 t/s |
| Mensch spricht | 3–4 t/s |
| GPT-4o (API) | ~80–120 t/s |
| KNUT (Nemotron) | ~54 t/s |
| KNUT (Qwen 3.5) | ~36 t/s |
KNUT generiert 15x schneller als du sprichst. Für Coding-Assistenz, Workflow-Automatisierung, Textgenerierung und alltägliche LLM-Aufgaben ist das mehr als ausreichend – auch im Vergleich zu Cloud-APIs, bei denen Latenz, Rate Limits und Kosten dazukommen.
Die Architektur: Heterogene Hardware, ein API-Endpoint
Das Besondere an KNUT ist nicht die einzelne Hardware – sondern wie sie zusammenarbeitet:
Verteilte Inference über LAN: Die drei Nodes kommunizieren über das lokale Netzwerk. Modell-Layer werden intelligent auf die verfügbaren Ressourcen verteilt.
CUDA + Metal: KNUT kombiniert NVIDIA CUDA (Linux/Windows) mit Apple Metal (macOS) in einem System. Das ist ungewöhnlich – die meisten Setups beschränken sich auf eine Architektur.
OpenAI-kompatible API: Nach außen verhält sich KNUT wie ein OpenAI-Endpoint. Jedes Tool, das die OpenAI-API spricht, funktioniert out-of-the-box – Cursor, Continue, Open WebUI, n8n, Make, eigene Scripts.
Model Routing: Anfragen werden je nach Aufgabe an das passende Modell geroutet. Schnelle Tasks an Nemotron, komplexeres Reasoning an Qwen 3.5.
┌─────────────────────────────────────────┐
│ OpenAI-kompatible API │
│ (ein Endpoint) │
├──────────┬──────────┬───────────────────┤
│ Mac Mini │ RTX 4060 │ RTX 3060 │
│ M4 Metal │ Ti CUDA │ CUDA │
│ 24 GB │ 16 GB │ 12 GB │
├──────────┴──────────┴───────────────────┤
│ LAN – verteilte Inferenz │
└─────────────────────────────────────────┘Was das für Unternehmen bedeutet
Null laufende Kosten
Kein API-Key. Kein Abo. Kein Token-Budget, das am Monatsende explodiert. Die Hardware ist einmalig angeschafft – danach kostet jede Anfrage nur Strom. Bei aktuellen Strompreisen liegt KNUT bei geschätzt 0,02–0,05 € pro Stunde unter Last.
Volle Datensouveränität
Keine Daten verlassen dein Netzwerk. Kein Auftragsverarbeitungsvertrag. Kein Risiko, dass ein US-Provider Trainingsdaten aus deinen Prompts macht. Für DSGVO-sensible Branchen ist das nicht nice-to-have – es ist Pflicht.
Unabhängigkeit von Anbietern
Kein Vendor Lock-in. Kein Risiko, dass OpenAI die Preise erhöht, die API ändert oder dein Modell deprecated. Du kontrollierst die Infrastruktur, die Modelle und den Zeitpunkt von Updates.
Immer verfügbar
Kein API-Outage. Kein Rate Limiting. Keine Wartungsfenster. KNUT läuft, solange Strom fließt.
Vergleich: KNUT vs. Cloud-APIs
| Kriterium | KNUT (lokal) | Cloud-API (GPT-4o mini) |
|---|---|---|
| Kosten pro Token | 0 € | $0.15–0.60/1M Tokens |
| Datenschutz | ✅ Volle Kontrolle | ⚠️ Daten bei US-Provider |
| Latenz (First Token) | ~50ms (LAN) | 200–500ms (Internet) |
| Durchsatz | 36–54 t/s | 80–120 t/s |
| Verfügbarkeit | 99.9% (eigene Hardware) | 99.5% (SLA-abhängig) |
| Multimodal | ❌ Nur Text | ✅ Text, Bild, Audio |
| Setup-Aufwand | Hoch | Niedrig |
Wann KNUT die richtige Wahl ist
✅ Ja, wenn:
- Du sensible Daten verarbeitest (Verträge, HR, Finanzen, Gesundheit)
- Du hohes Volumen hast und Token-Kosten sparen willst
- Du AI in Workflows einbaust, die 24/7 laufen
- Du Unabhängigkeit von Cloud-Anbietern willst
- Du intern AI testen willst, ohne Budget-Freigabe für APIs
❌ Nein, wenn:
- Du multimodale Fähigkeiten brauchst (Bild, Audio, Video)
- Du State-of-the-Art Reasoning brauchst (Claude Opus, GPT-5)
- Du kein technisches Team für Setup und Wartung hast
- Dein Volumen zu niedrig ist, um die Hardware zu rechtfertigen
KNUT Network: Die Waitlist
Wir bauen KNUT nicht nur für uns. Unter knut.network entsteht eine Plattform, die lokale AI-Infrastruktur für Teams zugänglich macht – mit vorkonfigurierten Setups, Model Routing und Enterprise-Features.
Was geplant ist:
- Vorkonfigurierte Hardware-Bundles
- Managed Model Updates
- Team-Zugang mit Rollen und Audit-Logs
- Integration in bestehende IT-Infrastruktur
👉 Zur Waitlist auf knut.network
Fazit
KNUT zeigt, was 2026 mit Off-the-Shelf-Hardware möglich ist: GPT-4o-mini-Niveau, 54 Tokens pro Sekunde, null Cloud-Abhängigkeit. Für ~2.500 € Hardwarekosten bekommst du eine AI-Infrastruktur, die sich nach wenigen Monaten amortisiert – und die dir niemand abschalten kann.
Die Zukunft der AI ist nicht nur Cloud. Sie ist hybrid. Und sie beginnt mit einem Knoten.
→ Mehr über unsere AI-Services → Gemma 4: Frontier-Intelligenz auf dem Laptop – der Hype ist real → Qwen3.5: 122B Parameter auf deinem Laptop → Privacy Router: AI-Datenschutz ohne Kompromisse








