Visualisierung eines großen blassen Neural-Net-Spheres und eines kleineren, hellen Sphere mit Cyan/Gelb – die schrumpfende Frontier offener Modelle

Nex-N2-Pro: Wie die Frontier der offenen Modelle in sechs Wochen um 75 % geschrumpft ist

8. Juni 20265 min Lesezeit

TL;DR: „DeepSeek-V4-Pro (April 2026): 1,6T Parameter, 49B aktiv. Nex-N2-Pro (Juni 2026): 397B Parameter, 17B aktiv – schlägt V4-Pro auf Terminal-Bench 2.1, edged GPT-5.5 auf SWE-Bench Pro. Die offene Frontier viertelt sich im Wochentakt. Wer souverän bauen will, gewinnt – die Hyperscaler weniger."

— Till Freitag

Sechs Wochen, zwei Größenordnungen

Am 22. April 2026 hat DeepSeek mit DeepSeek-V4-Pro das größte je veröffentlichte Open-Weight-Modell gelauncht: 1,6 Billionen Parameter, 49B aktiv, MoE, 1M-Token-Kontext. Eine technische Ansage – und für viele der Beweis, dass die offene Frontier endgültig an der geschlossenen geklebt ist.

Am 5. Juni 2026 hat nex-agi Nex-N2-Pro veröffentlicht: 397 Milliarden Parameter, 17B aktiv, Apache 2.0, post-trained auf Qwen3.5-397B-A17B. Ein Viertel der Gesamtparameter. Ein gutes Drittel der aktiven. Und auf den Benchmarks, die für agentisches Arbeiten zählen, gleichauf oder vor V4-Pro.

Modell	Total	Aktiv (MoE)	Release	Lizenz
DeepSeek-V4-Pro	1.600 B	49 B	22. Apr 2026	MIT
Nex-N2-Pro	397 B	17 B	5. Jun 2026	Apache 2.0
Faktor	0,25×	0,35×	+44 Tage	beides offen

Die Benchmarks, die wirklich zählen

Nex-N2 ist explizit ein agentisches Modell – nicht "noch ein Chat". Die offiziellen Zahlen auf den Benchmarks, die für Tool-Use, Coding und Long-Horizon-Execution stehen:

Benchmark	Nex-N2-Pro	Vergleich
Terminal-Bench 2.1	75,3	vor Claude Opus 4.7 und DeepSeek-V4-Pro
SWE-Bench Pro	58,8	edged GPT-5.5
BrowseComp	83,7	auf Augenhöhe mit Top-Tier-Frontier

Das ist nicht "ganz okay für ein offenes Modell". Das ist Frontier-Niveau bei einem Viertel der Größe – und mit einer Lizenz, die niemand vor Gericht zieht.

Was diese Kurve technisch erklärt

Drei Hebel laufen parallel, und sie verstärken sich gegenseitig:

Bessere MoE-Architekturen. 17B aktiv statt 49B heißt: weniger VRAM pro Token, höhere Throughput, niedrigere Latenz. Die Wahl, welcher Expert feuert, ist heute deutlich smarter als 2024.
Post-Training auf starken Basen. Nex-N2-Pro ist auf Qwen3.5-397B-A17B post-trained. Die Community baut nicht mehr from scratch, sondern stapelt Spezialisierung auf bewährte Pretrained-Cores.
Agentic Thinking als First-Class-Capability. Statt Chain-of-Thought reaktiv anzuhängen, ist Reasoning Teil der Architektur und des Trainings. Das Modell entscheidet, wann und wie tief es nachdenkt – ähnlich wie Mistral Medium 3.5 und GPT-5.4.

Übersetzt: Wir bekommen pro Jahr nicht nur ein bisschen mehr Performance pro Parameter – wir bekommen sie in Sprüngen.

Was vorher ein Cluster brauchte, läuft morgen lokal

Eine sehr grobe, aber ehrliche Kurve der "größten offenen Frontier-Modelle":

2024 Q4   Llama-3.1-405B Dense           405 B
2025 Q2   DeepSeek-V3                    671 B  (37B aktiv)
2025 Q4   Kimi K2 / Qwen3.5             ~1.000 B
2026 Q2   DeepSeek-V4-Pro                1.600 B (49B aktiv)
2026 Q2   Nex-N2-Pro                       397 B (17B aktiv)

Der Punkt ist nicht "klein schlägt groß". Der Punkt ist: die effiziente Frontier verschiebt sich nach unten, während die maximale Frontier weiter nach oben wandert. Die Spannung zwischen "was geht maximal" und "was braucht man wirklich" wird immer größer – zugunsten der Bauer:innen.

Konkret: Was vor einem Jahr nur auf einem Multi-Node-H100-Cluster lief, läuft heute mit den richtigen Quantisierungen auf einem einzelnen 8×H100-Knoten – und mit aggressivem GGUF/AWQ zunehmend auf Workstations oder Edge-Boxen. Frontier-Niveau wandert vom Hyperscaler-RZ auf den Schreibtisch.

Wer profitiert – und wer eher nicht?

Die Gewinner

Builder mit Souveränitäts-Anforderung. Healthcare, Public Sector, Banking, Pharma, Industrie. Wer Daten nicht durch US-APIs schieben darf, bekommt ein Modell, das liefert statt nur "ausreicht".
EU-Unternehmen mit DSGVO-Druck. Self-hosted, Apache 2.0, klare Lieferkette. Kein "wir haben die DPA, vertraut uns"-Layer mehr nötig.
AI-First-Builder. Wer Agents in Produktion fährt, kann das Default-Modell wechseln, ohne den Architektur-Stack umzubauen. Tool-Calling-Qualität wird zum austauschbaren Bauteil.
Edge- und On-Device-Szenarien. 17B aktiv ist die Schwelle, ab der "läuft auf der Workstation" realistisch wird – mit echter Reasoning-Tiefe, nicht nur als Spielzeug.

Die Verlierer (zumindest am Margenrand)

Hyperscaler-Pricing für reine Inferenz. Wenn ein 397B-Modell mit Apache-2.0-Lizenz Frontier-Coding kann, sinkt die Bereitschaft, $ für GPT-Class-Inferenz zu zahlen – außer für genau die Workloads, in denen die geschlossenen Modelle noch wirklich vorne sind.
Geschlossene "Open-but-not-really"-Lizenzen. Modified MIT mit MAU-Schwellen oder Acceptable-Use-Klauseln wirken plötzlich teuer, wenn echtes Apache 2.0 daneben liegt.
Reine Modell-Lizenz-Geschäftsmodelle. Die Wertschöpfung verlagert sich endgültig in den Tool-Layer – Cursor, Vibe, Claude Code, IDE-Integrationen, Agentic-Runtime, Eval-Stack. Wer nur Weights verkauft, verkauft eine Commodity.

Was wir konkret tun

Bei Till Freitag rotieren wir Nex-N2-Pro ab dieser Woche durch unsere internen Eval-Suite – parallel zu Medium 3.5, Claude Sonnet 4.5 und Kimi K2.5. Drei Fragen, die wir beantworten wollen:

Tool-Calling-Treffsicherheit auf realen monday.com- und RevOps-Workflows.
Long-Horizon-Stabilität über 50+ Schritte – Terminal-Bench liest sich gut, aber die echte Frage ist Drift in mehrstufigen Agenten.
Inferenz-Ökonomie self-hosted auf 8×H100 NVL vs. managed via SiliconFlow – ab wann lohnt sich Eigenbetrieb?

Erste Eindrücke kommen in den nächsten zwei Wochen in einem Follow-up. Wer mitvergleichen will: Modell-Karte ist auf Hugging Face, Playground bei SiliconFlow.

Was jetzt zu tun ist

Wenn du heute auf DeepSeek-V4-Pro oder Llama 4 Maverick fährst: Nex-N2-Pro auf deinen eigenen Tasks evaluieren. Nicht auf Marketing-Benchmarks – auf deinen Workflows.
Wenn du noch keine Open-Weights-Strategie hast: Jetzt einsteigen. Die Kurve der nächsten zwölf Monate wird das Pricing deiner Closed-Source-Verträge neu verhandeln.
Wenn du in regulierten Branchen baust: Self-Hosting wird vom Premium-Pfad zum Default-Pfad. Plan die Infra entsprechend.
Wenn du nur Chat brauchst: Bleib bei deinem managed Provider. Diese Welle ist für Agents, Coding und Long-Horizon-Tasks gebaut.

Fazit

Vor sechs Wochen war "größtes offenes Modell" gleichbedeutend mit "1,6 Billionen Parameter". Heute ist das größte offene Modell, das auf den agentischen Benchmarks vorne liegt, ein Viertel so groß. Diese Halbwertszeit ist keine Anomalie – sie ist das neue Tempo.

Die ehrliche Antwort auf "wer profitiert" lautet: jeder, der seine KI selbst besitzen will. Frontier-Niveau ist nicht mehr nur Hyperscaler-Hoheitsgebiet. Es ist eine Lieferung, die du diese Woche herunterladen, lizenzkonform betreiben und morgen in dein Produkt einbauen kannst.

Die spannende Frage ist nicht mehr, ob offene Modelle gewinnen. Sondern, was du baust, wenn Frontier-AI auf deinem Schreibtisch liegt.

→ Mistral 3, Large 3 & Vibe: Europas AI-Hoffnung zurück im Spiel → Open-Source-LLM-Vergleich: 20+ Modelle im Überblick → GGUF, GGML, Safetensors – Formate für lokale AI → Unsere AI-Services bei Till Freitag

TeilenLinkedIn WhatsApp E-Mail

Verwandte Artikel

Stilisierte Mistral-Flamme als Mixture-of-Experts-Netzwerk auf dunklem Hintergrund

8. Juni 20265 min

Mistral 3, Large 3 & Vibe: Warum das letzte Update Europas AI-Hoffnung zurück ins Spiel bringt

Mistral hat in einem halben Jahr alles auf links gedreht: Mistral 3 mit Large 3 (675B MoE) als Open Weights, Medium 3.5 …

Visualisierung von Kimi K2.6 Long-Horizon Agents: Halbmond als Moonshot-Symbol mit verteilten Sub-Agent-Knoten über einem Koordinationsraster

Deep Dive

21. April 20268 min

Kimi K2.6: Warum die spannendste KI-Optimierung 2026 nicht Intelligenz ist – sondern Dauer

Moonshot AI hat gestern Kimi K2.6 open-sourced. 1 Billion Parameter, 300 Sub-Agents, 13 Stunden autonome Codeoptimierung…

10. April 20264 min

Projekt KNUT: 52 GB VRAM, null Cloud – lokale AI-Infrastruktur im Deep Dive

Ein Mac Mini M4, zwei NVIDIA-GPUs, 52 GB VRAM – Projekt KNUT vereint heterogene Hardware zu einer lokalen AI-Infrastrukt…

Gemma 4 KI-Modell läuft auf kompaktem Mini-PC – Frontier-Intelligenz wird lokal

6. April 20264 min

Gemma 4: Frontier-Intelligenz auf dem Laptop – der Hype ist real

Googles Gemma 4 liefert GPT-4-Niveau in 14 GB. 85 Tokens pro Sekunde auf Consumer-Hardware, 256K Kontext, Function Calli…

Open-Source-LLMs im Vergleich 2026 – 25+ Modelle, die du kennen solltest

Deep Dive

7. März 202610 min

Open-Source-LLMs im Vergleich 2026 – 25+ Modelle, die du kennen solltest

Von Llama über Qwen bis Gemma 4: Alle wichtigen Open-Source-LLMs im Überblick – mit GitHub-Stars, Parametern, Lizenzen u…

28. Februar 20263 min

122 Milliarden Parameter auf deinem Laptop – was Qwen3.5 für dein Business bedeutet

Alibabas Qwen3.5 schlägt GPT-5-mini in fast allen Benchmarks – und läuft lokal auf einem Laptop. Was das für Unternehmen…

Eine stilisierte 5 aus orangefarbenen Bändern und Zahnrädern – Visual zu Claude Sonnet 5

30. Juni 20263 min

Claude Sonnet 5: Agentik für die breite Masse

Anthropic launcht Claude Sonnet 5 – ein Sonnet-Modell, das nah an Opus 4.8 herankommt, aber zu einem Bruchteil des Preis…

GLM-5.2 vs. Kimi K2.7 Code – Split-Screen-Illustration mit Z-Letter und Halbmond-Symbol

21. Juni 20266 min

GLM-5.2 vs. Kimi K2.7 Code: Zwei Open-Weight-Releases in einer Woche – aber zwei sehr unterschiedliche Wetten

Innerhalb von vier Tagen haben Z.ai (GLM-5.2) und Moonshot AI (Kimi K2.7 Code) ihre nächste Generation Open-Weight-Model…

Gemma 4 12B Coder läuft lokal auf einem Entwickler-Laptop – Code-Symbole strömen aus einem 12B-Chip

15. Juni 20264 min

Gemma 4 12B Coder: Lokale Code-Generierung wird zum Default

Google bringt mit dem Gemma 4 12B Coder die spezialisierte Coding-Variante des Gemma-4-Stacks. 12B Parameter im GGUF-For…