Visualisierung eines großen blassen Neural-Net-Spheres und eines kleineren, hellen Sphere mit Cyan/Gelb – die schrumpfende Frontier offener Modelle

    Nex-N2-Pro: Wie die Frontier der offenen Modelle in sechs Wochen um 75 % geschrumpft ist

    8. Juni 20265 min Lesezeit
    Till Freitag

    TL;DR: „DeepSeek-V4-Pro (April 2026): 1,6T Parameter, 49B aktiv. Nex-N2-Pro (Juni 2026): 397B Parameter, 17B aktiv – schlägt V4-Pro auf Terminal-Bench 2.1, edged GPT-5.5 auf SWE-Bench Pro. Die offene Frontier viertelt sich im Wochentakt. Wer souverän bauen will, gewinnt – die Hyperscaler weniger."

    — Till Freitag

    Sechs Wochen, zwei Größenordnungen

    Am 22. April 2026 hat DeepSeek mit DeepSeek-V4-Pro das größte je veröffentlichte Open-Weight-Modell gelauncht: 1,6 Billionen Parameter, 49B aktiv, MoE, 1M-Token-Kontext. Eine technische Ansage – und für viele der Beweis, dass die offene Frontier endgültig an der geschlossenen geklebt ist.

    Am 5. Juni 2026 hat nex-agi Nex-N2-Pro veröffentlicht: 397 Milliarden Parameter, 17B aktiv, Apache 2.0, post-trained auf Qwen3.5-397B-A17B. Ein Viertel der Gesamtparameter. Ein gutes Drittel der aktiven. Und auf den Benchmarks, die für agentisches Arbeiten zählen, gleichauf oder vor V4-Pro.

    Modell Total Aktiv (MoE) Release Lizenz
    DeepSeek-V4-Pro 1.600 B 49 B 22. Apr 2026 MIT
    Nex-N2-Pro 397 B 17 B 5. Jun 2026 Apache 2.0
    Faktor 0,25× 0,35× +44 Tage beides offen

    Die Benchmarks, die wirklich zählen

    Nex-N2 ist explizit ein agentisches Modell – nicht "noch ein Chat". Die offiziellen Zahlen auf den Benchmarks, die für Tool-Use, Coding und Long-Horizon-Execution stehen:

    Benchmark Nex-N2-Pro Vergleich
    Terminal-Bench 2.1 75,3 vor Claude Opus 4.7 und DeepSeek-V4-Pro
    SWE-Bench Pro 58,8 edged GPT-5.5
    BrowseComp 83,7 auf Augenhöhe mit Top-Tier-Frontier

    Das ist nicht "ganz okay für ein offenes Modell". Das ist Frontier-Niveau bei einem Viertel der Größe – und mit einer Lizenz, die niemand vor Gericht zieht.

    Was diese Kurve technisch erklärt

    Drei Hebel laufen parallel, und sie verstärken sich gegenseitig:

    1. Bessere MoE-Architekturen. 17B aktiv statt 49B heißt: weniger VRAM pro Token, höhere Throughput, niedrigere Latenz. Die Wahl, welcher Expert feuert, ist heute deutlich smarter als 2024.
    2. Post-Training auf starken Basen. Nex-N2-Pro ist auf Qwen3.5-397B-A17B post-trained. Die Community baut nicht mehr from scratch, sondern stapelt Spezialisierung auf bewährte Pretrained-Cores.
    3. Agentic Thinking als First-Class-Capability. Statt Chain-of-Thought reaktiv anzuhängen, ist Reasoning Teil der Architektur und des Trainings. Das Modell entscheidet, wann und wie tief es nachdenkt – ähnlich wie Mistral Medium 3.5 und GPT-5.4.

    Übersetzt: Wir bekommen pro Jahr nicht nur ein bisschen mehr Performance pro Parameter – wir bekommen sie in Sprüngen.

    Was vorher ein Cluster brauchte, läuft morgen lokal

    Eine sehr grobe, aber ehrliche Kurve der "größten offenen Frontier-Modelle":

    2024 Q4   Llama-3.1-405B Dense           405 B
    2025 Q2   DeepSeek-V3                    671 B  (37B aktiv)
    2025 Q4   Kimi K2 / Qwen3.5             ~1.000 B
    2026 Q2   DeepSeek-V4-Pro                1.600 B (49B aktiv)
    2026 Q2   Nex-N2-Pro                       397 B (17B aktiv)

    Der Punkt ist nicht "klein schlägt groß". Der Punkt ist: die effiziente Frontier verschiebt sich nach unten, während die maximale Frontier weiter nach oben wandert. Die Spannung zwischen "was geht maximal" und "was braucht man wirklich" wird immer größer – zugunsten der Bauer:innen.

    Konkret: Was vor einem Jahr nur auf einem Multi-Node-H100-Cluster lief, läuft heute mit den richtigen Quantisierungen auf einem einzelnen 8×H100-Knoten – und mit aggressivem GGUF/AWQ zunehmend auf Workstations oder Edge-Boxen. Frontier-Niveau wandert vom Hyperscaler-RZ auf den Schreibtisch.

    Wer profitiert – und wer eher nicht?

    Die Gewinner

    • Builder mit Souveränitäts-Anforderung. Healthcare, Public Sector, Banking, Pharma, Industrie. Wer Daten nicht durch US-APIs schieben darf, bekommt ein Modell, das liefert statt nur "ausreicht".
    • EU-Unternehmen mit DSGVO-Druck. Self-hosted, Apache 2.0, klare Lieferkette. Kein "wir haben die DPA, vertraut uns"-Layer mehr nötig.
    • AI-First-Builder. Wer Agents in Produktion fährt, kann das Default-Modell wechseln, ohne den Architektur-Stack umzubauen. Tool-Calling-Qualität wird zum austauschbaren Bauteil.
    • Edge- und On-Device-Szenarien. 17B aktiv ist die Schwelle, ab der "läuft auf der Workstation" realistisch wird – mit echter Reasoning-Tiefe, nicht nur als Spielzeug.

    Die Verlierer (zumindest am Margenrand)

    • Hyperscaler-Pricing für reine Inferenz. Wenn ein 397B-Modell mit Apache-2.0-Lizenz Frontier-Coding kann, sinkt die Bereitschaft, $$ für GPT-Class-Inferenz zu zahlen – außer für genau die Workloads, in denen die geschlossenen Modelle noch wirklich vorne sind.
    • Geschlossene "Open-but-not-really"-Lizenzen. Modified MIT mit MAU-Schwellen oder Acceptable-Use-Klauseln wirken plötzlich teuer, wenn echtes Apache 2.0 daneben liegt.
    • Reine Modell-Lizenz-Geschäftsmodelle. Die Wertschöpfung verlagert sich endgültig in den Tool-Layer – Cursor, Vibe, Claude Code, IDE-Integrationen, Agentic-Runtime, Eval-Stack. Wer nur Weights verkauft, verkauft eine Commodity.

    Was wir konkret tun

    Bei Till Freitag rotieren wir Nex-N2-Pro ab dieser Woche durch unsere internen Eval-Suite – parallel zu Medium 3.5, Claude Sonnet 4.5 und Kimi K2.5. Drei Fragen, die wir beantworten wollen:

    1. Tool-Calling-Treffsicherheit auf realen monday.com- und RevOps-Workflows.
    2. Long-Horizon-Stabilität über 50+ Schritte – Terminal-Bench liest sich gut, aber die echte Frage ist Drift in mehrstufigen Agenten.
    3. Inferenz-Ökonomie self-hosted auf 8×H100 NVL vs. managed via SiliconFlow – ab wann lohnt sich Eigenbetrieb?

    Erste Eindrücke kommen in den nächsten zwei Wochen in einem Follow-up. Wer mitvergleichen will: Modell-Karte ist auf Hugging Face, Playground bei SiliconFlow.

    Was jetzt zu tun ist

    1. Wenn du heute auf DeepSeek-V4-Pro oder Llama 4 Maverick fährst: Nex-N2-Pro auf deinen eigenen Tasks evaluieren. Nicht auf Marketing-Benchmarks – auf deinen Workflows.
    2. Wenn du noch keine Open-Weights-Strategie hast: Jetzt einsteigen. Die Kurve der nächsten zwölf Monate wird das Pricing deiner Closed-Source-Verträge neu verhandeln.
    3. Wenn du in regulierten Branchen baust: Self-Hosting wird vom Premium-Pfad zum Default-Pfad. Plan die Infra entsprechend.
    4. Wenn du nur Chat brauchst: Bleib bei deinem managed Provider. Diese Welle ist für Agents, Coding und Long-Horizon-Tasks gebaut.

    Fazit

    Vor sechs Wochen war "größtes offenes Modell" gleichbedeutend mit "1,6 Billionen Parameter". Heute ist das größte offene Modell, das auf den agentischen Benchmarks vorne liegt, ein Viertel so groß. Diese Halbwertszeit ist keine Anomalie – sie ist das neue Tempo.

    Die ehrliche Antwort auf "wer profitiert" lautet: jeder, der seine KI selbst besitzen will. Frontier-Niveau ist nicht mehr nur Hyperscaler-Hoheitsgebiet. Es ist eine Lieferung, die du diese Woche herunterladen, lizenzkonform betreiben und morgen in dein Produkt einbauen kannst.

    Die spannende Frage ist nicht mehr, ob offene Modelle gewinnen. Sondern, was du baust, wenn Frontier-AI auf deinem Schreibtisch liegt.


    → Mistral 3, Large 3 & Vibe: Europas AI-Hoffnung zurück im Spiel → Open-Source-LLM-Vergleich: 20+ Modelle im Überblick → GGUF, GGML, Safetensors – Formate für lokale AI → Unsere AI-Services bei Till Freitag

    TeilenLinkedInWhatsAppE-Mail

    Verwandte Artikel

    Stilisierte Mistral-Flamme als Mixture-of-Experts-Netzwerk auf dunklem Hintergrund
    8. Juni 20265 min

    Mistral 3, Large 3 & Vibe: Warum das letzte Update Europas AI-Hoffnung zurück ins Spiel bringt

    Mistral hat in einem halben Jahr alles auf links gedreht: Mistral 3 mit Large 3 (675B MoE) als Open Weights, Medium 3.5 …

    Weiterlesen
    Visualisierung von Kimi K2.6 Long-Horizon Agents: Halbmond als Moonshot-Symbol mit verteilten Sub-Agent-Knoten über einem KoordinationsrasterDeep Dive
    21. April 20268 min

    Kimi K2.6: Warum die spannendste KI-Optimierung 2026 nicht Intelligenz ist – sondern Dauer

    Moonshot AI hat gestern Kimi K2.6 open-sourced. 1 Billion Parameter, 300 Sub-Agents, 13 Stunden autonome Codeoptimierung…

    Weiterlesen
    Projekt KNUT: 52 GB VRAM, null Cloud – lokale AI-Infrastruktur im Deep Dive
    10. April 20264 min

    Projekt KNUT: 52 GB VRAM, null Cloud – lokale AI-Infrastruktur im Deep Dive

    Ein Mac Mini M4, zwei NVIDIA-GPUs, 52 GB VRAM – Projekt KNUT vereint heterogene Hardware zu einer lokalen AI-Infrastrukt…

    Weiterlesen
    Gemma 4 KI-Modell läuft auf kompaktem Mini-PC – Frontier-Intelligenz wird lokal
    6. April 20264 min

    Gemma 4: Frontier-Intelligenz auf dem Laptop – der Hype ist real

    Googles Gemma 4 liefert GPT-4-Niveau in 14 GB. 85 Tokens pro Sekunde auf Consumer-Hardware, 256K Kontext, Function Calli…

    Weiterlesen
    Open-Source-LLMs im Vergleich 2026 – 25+ Modelle, die du kennen solltestDeep Dive
    7. März 202610 min

    Open-Source-LLMs im Vergleich 2026 – 25+ Modelle, die du kennen solltest

    Von Llama über Qwen bis Gemma 4: Alle wichtigen Open-Source-LLMs im Überblick – mit GitHub-Stars, Parametern, Lizenzen u…

    Weiterlesen
    122 Milliarden Parameter auf deinem Laptop – was Qwen3.5 für dein Business bedeutet
    28. Februar 20263 min

    122 Milliarden Parameter auf deinem Laptop – was Qwen3.5 für dein Business bedeutet

    Alibabas Qwen3.5 schlägt GPT-5-mini in fast allen Benchmarks – und läuft lokal auf einem Laptop. Was das für Unternehmen…

    Weiterlesen
    Self-Hosted & Privacy-Layer 2026: Ontheia, Anything LLM & Privacy Router
    4. Juni 20263 min

    Self-Hosted & Privacy-Layer 2026: Ontheia, Anything LLM & Privacy Router

    Wer DSGVO ernst nimmt, kommt um Self-Hosting nicht herum. Ontheia, Anything LLM, NanoClaw und der Privacy Router im Verg…

    Weiterlesen
    Geopolitische KI-Landschaft zwischen westlicher und östlicher TechnologieDeep Dive
    13. April 20268 min

    Chinas KI-Offensive: Von Hunter Alpha bis DeepSeek V4 auf Huawei-Chips

    Ein anonymes 1T-Modell, eine Verwechslung mit DeepSeek, und die Enthüllung, dass Xiaomi dahintersteckt. Gleichzeitig ste…

    Weiterlesen
    Kimi K2.5: Das chinesische Open-Weight-Modell hinter Cursors Composer 2
    26. März 20264 min

    Kimi K2.5: Das chinesische Open-Weight-Modell hinter Cursors Composer 2

    Cursors Composer 2 basiert heimlich auf Moonshot AIs Kimi K2.5 – einem 1-Billionen-Parameter Open-Weight-Modell aus Peki…

    Weiterlesen