
Nex-N2-Pro: Wie die Frontier der offenen Modelle in sechs Wochen um 75 % geschrumpft ist
TL;DR: „DeepSeek-V4-Pro (April 2026): 1,6T Parameter, 49B aktiv. Nex-N2-Pro (Juni 2026): 397B Parameter, 17B aktiv – schlägt V4-Pro auf Terminal-Bench 2.1, edged GPT-5.5 auf SWE-Bench Pro. Die offene Frontier viertelt sich im Wochentakt. Wer souverän bauen will, gewinnt – die Hyperscaler weniger."
— Till FreitagSechs Wochen, zwei Größenordnungen
Am 22. April 2026 hat DeepSeek mit DeepSeek-V4-Pro das größte je veröffentlichte Open-Weight-Modell gelauncht: 1,6 Billionen Parameter, 49B aktiv, MoE, 1M-Token-Kontext. Eine technische Ansage – und für viele der Beweis, dass die offene Frontier endgültig an der geschlossenen geklebt ist.
Am 5. Juni 2026 hat nex-agi Nex-N2-Pro veröffentlicht: 397 Milliarden Parameter, 17B aktiv, Apache 2.0, post-trained auf Qwen3.5-397B-A17B. Ein Viertel der Gesamtparameter. Ein gutes Drittel der aktiven. Und auf den Benchmarks, die für agentisches Arbeiten zählen, gleichauf oder vor V4-Pro.
| Modell | Total | Aktiv (MoE) | Release | Lizenz |
|---|---|---|---|---|
| DeepSeek-V4-Pro | 1.600 B | 49 B | 22. Apr 2026 | MIT |
| Nex-N2-Pro | 397 B | 17 B | 5. Jun 2026 | Apache 2.0 |
| Faktor | 0,25× | 0,35× | +44 Tage | beides offen |
Die Benchmarks, die wirklich zählen
Nex-N2 ist explizit ein agentisches Modell – nicht "noch ein Chat". Die offiziellen Zahlen auf den Benchmarks, die für Tool-Use, Coding und Long-Horizon-Execution stehen:
| Benchmark | Nex-N2-Pro | Vergleich |
|---|---|---|
| Terminal-Bench 2.1 | 75,3 | vor Claude Opus 4.7 und DeepSeek-V4-Pro |
| SWE-Bench Pro | 58,8 | edged GPT-5.5 |
| BrowseComp | 83,7 | auf Augenhöhe mit Top-Tier-Frontier |
Das ist nicht "ganz okay für ein offenes Modell". Das ist Frontier-Niveau bei einem Viertel der Größe – und mit einer Lizenz, die niemand vor Gericht zieht.
Was diese Kurve technisch erklärt
Drei Hebel laufen parallel, und sie verstärken sich gegenseitig:
- Bessere MoE-Architekturen. 17B aktiv statt 49B heißt: weniger VRAM pro Token, höhere Throughput, niedrigere Latenz. Die Wahl, welcher Expert feuert, ist heute deutlich smarter als 2024.
- Post-Training auf starken Basen. Nex-N2-Pro ist auf Qwen3.5-397B-A17B post-trained. Die Community baut nicht mehr from scratch, sondern stapelt Spezialisierung auf bewährte Pretrained-Cores.
- Agentic Thinking als First-Class-Capability. Statt Chain-of-Thought reaktiv anzuhängen, ist Reasoning Teil der Architektur und des Trainings. Das Modell entscheidet, wann und wie tief es nachdenkt – ähnlich wie Mistral Medium 3.5 und GPT-5.4.
Übersetzt: Wir bekommen pro Jahr nicht nur ein bisschen mehr Performance pro Parameter – wir bekommen sie in Sprüngen.
Was vorher ein Cluster brauchte, läuft morgen lokal
Eine sehr grobe, aber ehrliche Kurve der "größten offenen Frontier-Modelle":
2024 Q4 Llama-3.1-405B Dense 405 B
2025 Q2 DeepSeek-V3 671 B (37B aktiv)
2025 Q4 Kimi K2 / Qwen3.5 ~1.000 B
2026 Q2 DeepSeek-V4-Pro 1.600 B (49B aktiv)
2026 Q2 Nex-N2-Pro 397 B (17B aktiv)Der Punkt ist nicht "klein schlägt groß". Der Punkt ist: die effiziente Frontier verschiebt sich nach unten, während die maximale Frontier weiter nach oben wandert. Die Spannung zwischen "was geht maximal" und "was braucht man wirklich" wird immer größer – zugunsten der Bauer:innen.
Konkret: Was vor einem Jahr nur auf einem Multi-Node-H100-Cluster lief, läuft heute mit den richtigen Quantisierungen auf einem einzelnen 8×H100-Knoten – und mit aggressivem GGUF/AWQ zunehmend auf Workstations oder Edge-Boxen. Frontier-Niveau wandert vom Hyperscaler-RZ auf den Schreibtisch.
Wer profitiert – und wer eher nicht?
Die Gewinner
- Builder mit Souveränitäts-Anforderung. Healthcare, Public Sector, Banking, Pharma, Industrie. Wer Daten nicht durch US-APIs schieben darf, bekommt ein Modell, das liefert statt nur "ausreicht".
- EU-Unternehmen mit DSGVO-Druck. Self-hosted, Apache 2.0, klare Lieferkette. Kein "wir haben die DPA, vertraut uns"-Layer mehr nötig.
- AI-First-Builder. Wer Agents in Produktion fährt, kann das Default-Modell wechseln, ohne den Architektur-Stack umzubauen. Tool-Calling-Qualität wird zum austauschbaren Bauteil.
- Edge- und On-Device-Szenarien. 17B aktiv ist die Schwelle, ab der "läuft auf der Workstation" realistisch wird – mit echter Reasoning-Tiefe, nicht nur als Spielzeug.
Die Verlierer (zumindest am Margenrand)
- Hyperscaler-Pricing für reine Inferenz. Wenn ein 397B-Modell mit Apache-2.0-Lizenz Frontier-Coding kann, sinkt die Bereitschaft, $$ für GPT-Class-Inferenz zu zahlen – außer für genau die Workloads, in denen die geschlossenen Modelle noch wirklich vorne sind.
- Geschlossene "Open-but-not-really"-Lizenzen. Modified MIT mit MAU-Schwellen oder Acceptable-Use-Klauseln wirken plötzlich teuer, wenn echtes Apache 2.0 daneben liegt.
- Reine Modell-Lizenz-Geschäftsmodelle. Die Wertschöpfung verlagert sich endgültig in den Tool-Layer – Cursor, Vibe, Claude Code, IDE-Integrationen, Agentic-Runtime, Eval-Stack. Wer nur Weights verkauft, verkauft eine Commodity.
Was wir konkret tun
Bei Till Freitag rotieren wir Nex-N2-Pro ab dieser Woche durch unsere internen Eval-Suite – parallel zu Medium 3.5, Claude Sonnet 4.5 und Kimi K2.5. Drei Fragen, die wir beantworten wollen:
- Tool-Calling-Treffsicherheit auf realen monday.com- und RevOps-Workflows.
- Long-Horizon-Stabilität über 50+ Schritte – Terminal-Bench liest sich gut, aber die echte Frage ist Drift in mehrstufigen Agenten.
- Inferenz-Ökonomie self-hosted auf 8×H100 NVL vs. managed via SiliconFlow – ab wann lohnt sich Eigenbetrieb?
Erste Eindrücke kommen in den nächsten zwei Wochen in einem Follow-up. Wer mitvergleichen will: Modell-Karte ist auf Hugging Face, Playground bei SiliconFlow.
Was jetzt zu tun ist
- Wenn du heute auf DeepSeek-V4-Pro oder Llama 4 Maverick fährst: Nex-N2-Pro auf deinen eigenen Tasks evaluieren. Nicht auf Marketing-Benchmarks – auf deinen Workflows.
- Wenn du noch keine Open-Weights-Strategie hast: Jetzt einsteigen. Die Kurve der nächsten zwölf Monate wird das Pricing deiner Closed-Source-Verträge neu verhandeln.
- Wenn du in regulierten Branchen baust: Self-Hosting wird vom Premium-Pfad zum Default-Pfad. Plan die Infra entsprechend.
- Wenn du nur Chat brauchst: Bleib bei deinem managed Provider. Diese Welle ist für Agents, Coding und Long-Horizon-Tasks gebaut.
Fazit
Vor sechs Wochen war "größtes offenes Modell" gleichbedeutend mit "1,6 Billionen Parameter". Heute ist das größte offene Modell, das auf den agentischen Benchmarks vorne liegt, ein Viertel so groß. Diese Halbwertszeit ist keine Anomalie – sie ist das neue Tempo.
Die ehrliche Antwort auf "wer profitiert" lautet: jeder, der seine KI selbst besitzen will. Frontier-Niveau ist nicht mehr nur Hyperscaler-Hoheitsgebiet. Es ist eine Lieferung, die du diese Woche herunterladen, lizenzkonform betreiben und morgen in dein Produkt einbauen kannst.
Die spannende Frage ist nicht mehr, ob offene Modelle gewinnen. Sondern, was du baust, wenn Frontier-AI auf deinem Schreibtisch liegt.
→ Mistral 3, Large 3 & Vibe: Europas AI-Hoffnung zurück im Spiel → Open-Source-LLM-Vergleich: 20+ Modelle im Überblick → GGUF, GGML, Safetensors – Formate für lokale AI → Unsere AI-Services bei Till Freitag








