GLM-5.2 vs. Kimi K2.7 Code – Split-Screen-Illustration mit Z-Letter und Halbmond-Symbol

    GLM-5.2 vs. Kimi K2.7 Code: Zwei Open-Weight-Releases in einer Woche – aber zwei sehr unterschiedliche Wetten

    21. Juni 20266 min Lesezeit
    Till Freitag

    TL;DR: „GLM-5.2 (Z.ai, 16.06.) und Kimi K2.7 Code (Moonshot, 12.06.) sind in derselben Woche erschienen, beide Open Weight, beide im gleichen Preisband. Aber: GLM-5.2 ist ein generalistischer Long-Horizon-Allrounder mit 1M Kontext und führt aktuell den Artificial-Analysis-Index für Open Weights an. Kimi K2.7 Code ist ein coding-spezialisierter Agent, der 30 % weniger Thinking-Tokens braucht. Wer den falschen wählt, zahlt doppelt."

    — Till Freitag

    Eine Woche, zwei Releases, zwei Strategien

    Mitte Juni 2026 hat das chinesische Open-Weight-Lager innerhalb von vier Tagen zweimal nachgelegt:

    • 12. Juni 2026 – Moonshot AI veröffentlicht Kimi K2.7 Code. Open Source, Modified MIT, coding-fokussierter Agent auf Basis von K2.6.
    • 16. Juni 2026 – Z.ai (vormals Zhipu) veröffentlicht GLM-5.2. Open Weight, MIT, generalistisches Long-Horizon-Modell mit 1M-Token-Kontext.

    Beide Modelle landen ungefähr im selben Preisband, beide sind frei kommerziell nutzbar (mit den üblichen Schwellen), beide werden in den ersten Tweet-Threads als „der jeweils andere, nur besser" beschrieben.

    Das ist falsch.

    Wer beide Releases nebeneinander legt, sieht: Z.ai und Moonshot haben bewusst entgegengesetzte Wetten abgeschlossen. Die eine geht in die Breite (Kontext, Generalismus, Pareto-Frontier). Die andere geht in die Tiefe (Coding-Spezialisierung, Token-Effizienz). Welche dir näher liegt, hängt davon ab, was du nachts laufen lassen willst.

    Die nüchterne Spec-Tabelle

    SpecGLM-5.2Kimi K2.7 Code
    Release16. Juni 202612. Juni 2026
    HerstellerZ.ai (Zhipu AI), ChinaMoonshot AI, China
    ArchitekturMoEMoE (auf Basis K2.6)
    Total Parameter744 Mrd.~1 Bio.
    Aktive Parameter / Token40 Mrd.32 Mrd.
    Kontextfenster1.000.000 Tokens256.000 Tokens
    LizenzMITModified MIT
    SpezialisierungGeneralist + Long-Horizon ReasoningCoding-Agent + Long-Horizon Engineering
    Distinct-Bench-HighlightAA Intelligence Index 51 (führt Open Weights)+21.8 % auf Kimi Code Bench v2 vs. K2.6
    Distinct-Effizienz-Highlight+11 Punkte AA-Index bei gleicher Modellgröße wie GLM-5.1–30 % Thinking-Tokens vs. K2.6
    VerfügbarHuggingFace, Z.ai API, CloudflareHuggingFace, Kimi API, Kimi Code CLI

    Zwei Sachen springen sofort ins Auge:

    1. Der Kontext-Gap. GLM-5.2 hat eine Größenordnung mehr Kontext als K2.7 Code (1M vs. 256K). Das ist kein Marketing-Specs-Detail. Das ist eine andere Klasse von Use Cases (siehe unten).
    2. Die Effizienz-Achse. GLM-5.2 ist effizienter pro Intelligenz-Punkt (gleiche Größe, +11 AA-Index). Kimi K2.7 Code ist effizienter pro Task (–30 % Thinking-Tokens bei bessere Coding-Performance).

    Beide haben optimiert – aber auf unterschiedlichen Achsen.

    GLM-5.2: Der Generalist auf der Pareto-Frontier

    Z.ai hat GLM-5.2 explizit als „long-horizon tasks"-Modell positioniert. Der wichtigste Datenpunkt aus dem Release-Material:

    GLM-5.2 ist das neue führende Open-Weights-Modell im Artificial Analysis Intelligence Index (Score 51) und liegt auf der Pareto-Frontier von Intelligenz vs. Cost-per-Task.

    Übersetzt: Für jeden Dollar, den du an Inferenz-Kosten ausgibst, bekommst du aktuell von keinem anderen Open-Weight-Modell mehr Intelligenz. Und das bei gleicher Modellgröße wie GLM-5.1 – die +11 Indexpunkte kommen nicht aus mehr Parametern, sondern aus besserem Training und Reasoning-RL.

    Die drei Hebel, die GLM-5.2 für Builder interessant machen:

    • Solides 1M-Token-Kontextfenster. Nicht „advertised", sondern stabil über lange Trajektorien gehalten. Das bedeutet: ein komplettes mittelgroßes Repo, eine Quartalsdokumentation oder ein Multi-Session-Agent-Run passen in einen einzigen Inference-Call ohne RAG-Hacks.
    • Advanced Coding mit Flexibilität. Coding-Benchmarks liegen nah an proprietären Frontier-Modellen, ohne dass Z.ai daraus ein reines Coding-Modell gemacht hat. Brauchbar für gemischte Pipelines (Code + Docs + Reasoning).
    • MIT-Lizenz. Keine MAU-Schwelle, keine kommerziellen Einschränkungen, kein „Modified". Für Unternehmen mit Compliance-Bedenken ist das einfacher zu auditieren.

    Wenn du heute einen Agenten baust, der heterogene Workloads managen soll – Code schreiben, dokumentieren, ein 200-Seiten-PDF analysieren, ein Sales-Deck generieren – ist GLM-5.2 die spannendere Wahl. Vergleichbar mit unserer Lesart in AI Abstraction Layer: Du willst ein Modell, das den Großteil der Routine abdeckt, und teure Frontier-Calls nur für die harten 10 % aufrufen.

    Kimi K2.7 Code: Der Spezialist, der weniger denkt

    Moonshot hat mit K2.7 Code eine andere Wette platziert. Statt K2.6 (siehe Kimi K2.6 Deep-Dive) generalistisch zu verbessern, haben sie das Modell chirurgisch auf agentisches Coding spezialisiert.

    Drei Kernzahlen aus dem Release:

    • +21.8 % auf Kimi Code Bench v2 gegenüber K2.6 – das ist Moonshots interner Real-World-Bench mit langen Engineering-Trajektorien
    • –30 % Thinking-Tokens pro Task gegenüber K2.6 bei gleichzeitig besserer End-to-End-Task-Completion
    • Modified MIT mit der gleichen 100M-MAU-Schwelle wie K2.6 – für die meisten Builder irrelevant

    Der Punkt mit den 30 % weniger Thinking-Tokens ist subtil aber wirtschaftlich relevant. Long-Horizon-Coding-Agents fressen Tokens im Reasoning-Step. Wenn du auf SWE-Bench-ähnliche Tasks 30 % weniger Tokens brauchst, sinken nicht nur deine Inferenz-Kosten – die Wall-Clock-Time des Agents sinkt mit, was bei mehrstündigen Läufen sofort spürbar wird.

    Was K2.7 Code nicht ist:

    • Kein Generalist mehr in der Breite, in der K2.6 es war. Wer Multi-Domain-Agents baut, sollte bei K2.6 bleiben oder GLM-5.2 testen.
    • Kein 1M-Kontext-Modell. Bei sehr großen Repos brauchst du weiter RAG-/Skill-Routing.
    • Kein vollständiger Swarm-Stack. Die 300-Sub-Agent-Koordination aus K2.6 bleibt das Referenzmodell für Swarm-Use-Cases.

    Wenn du heute Cursor-/Claude-Code-ähnliche Coding-Pipelines selbst hostest, ist K2.7 Code die wirtschaftlich interessantere Wahl. Wenn du in der Tiefe optimieren willst, was Sub-Agents in einem Coding-Workflow tun, lies parallel unseren Agentic Coding Tools Landscape.

    Welches Modell für welchen Use Case

    Statt eines „Sieger"-Verdikts hier die Entscheidungsmatrix, die wir intern verwenden:

    Use CaseEmpfehlungWarum
    Long-Horizon Coding-Agent (Repo refaktorieren, Issues abarbeiten)Kimi K2.7 CodeSpezialisiert, –30 % Tokens, +21.8 % Real-World-Bench
    Generalist-Agent mit gemischten Workloads (Code + Docs + Analyse)GLM-5.2Pareto-Frontier, 1M Kontext, MIT
    Sehr langes Kontextfenster nötig (>256K Tokens)GLM-5.2Einzige Open-Weight-Option mit solidem 1M-Kontext
    Swarm-Koordination, viele heterogene Sub-AgentsKimi K2.6 (nicht K2.7 Code)Swarm-Stack mit 300 Sub-Agents bleibt unverändert in K2.6
    EU-Datensouveränität, on-prem DeploymentBeide möglichBeide vLLM-/SGLang-kompatibel, MIT bzw. Modified MIT
    Maximale Compliance-SimplizitätGLM-5.2Reine MIT, keine MAU-Schwelle

    Konkret bei uns: Wir nutzen aktuell K2.7 Code für Agentic-Coding-Pipelines in der internen Toolchain und beobachten GLM-5.2 als Default-Generalist für interne Long-Horizon-Workflows. Ein endgültiges Ablöse-Urteil über die Vorgängergeneration (K2.6, Claude Opus 4.6) sprechen wir frühestens nach 4 Wochen Produktivnutzung.

    Strategisch: Warum beide Releases in dieselbe Woche fallen

    Dass GLM-5.2 und Kimi K2.7 Code innerhalb einer Woche erscheinen, ist kein Zufall. Es ist die Fortsetzung eines Musters, das wir seit der China-KI-Offensive 2025 beobachten: Chinesische Labs takten Open-Weight-Releases dicht, oft in Wellen, oft kurz vor oder nach Frontier-Closed-Model-Releases der US-Labs.

    Der Effekt für den Markt:

    1. Der Preisanker für proprietäre Modelle wird kontinuierlich nach unten gezogen. Wer als OpenAI oder Anthropic für eine Task 10× mehr verlangt als ein vergleichbares Open-Weight-Modell, muss diesen Premium begründen können – mit Latency, Reliability, Tool-Ökosystem oder Compliance.
    2. Builder bekommen ein realistisches Open-Weight-Backup für jede Task. Coding? Kimi K2.7 Code. Generalist? GLM-5.2. Long-Horizon-Swarm? Kimi K2.6. Niemand muss eine kritische Pipeline an einen einzigen Closed-Source-Anbieter binden.
    3. Die Spezialisierung beschleunigt sich. K2.7 Code ist ein Coding-Fork von K2.6. Es ist nicht unwahrscheinlich, dass wir in den nächsten Monaten Browser-Forks, Research-Forks und Data-Analyst-Forks sehen – pro Use Case ein optimierter Open-Weight-Spezialist.

    Wer als Builder noch denkt, „Open Weight ist immer ein Trade-off gegen Frontier", optimiert seit ca. 6 Monaten auf der falschen Achse. Die Frage ist nicht ob du Open Weight einsetzen kannst, sondern welches du für welchen Workload nimmst.

    Was du diese Woche praktisch tun kannst

    1. Beide Modelle auf HuggingFace testen. zai-org/GLM-5.2 und moonshotai/Kimi-K2.7-Code. Beide laufen mit vLLM und SGLang ohne Custom-Patches.
    2. Eine Real-World-Task pro Modell laufen lassen. Nicht Benchmarks – eine echte Aufgabe aus deinem Backlog. Zähle Tokens, Wall-Clock-Time und subjektive Output-Qualität.
    3. Den Use Case ehrlich klassifizieren. Coding-spezialisiert oder generalistisch? >256K Kontext nötig? Die Antwort darauf ist 80 % der Modellauswahl.
    4. Den Lizenztext lesen. MIT vs. Modified MIT klingt nach Detail – für die Legal-Abteilung ist es relevant. Bei MAU >100M wird Kimis Modified-MIT-Schwelle scharf.

    Fazit: Zwei Modelle, zwei Wetten, eine Erkenntnis

    GLM-5.2 und Kimi K2.7 Code sind keine Konkurrenten im engen Sinn. Sie sind zwei klare Antworten auf zwei verschiedene Fragen:

    • „Wie baue ich den günstigsten generalistischen Long-Horizon-Agenten?" → GLM-5.2.
    • „Wie baue ich den effizientesten Coding-Agenten, der über Stunden kohärent bleibt?" → Kimi K2.7 Code.

    Wer beide Modelle als „das chinesische Open-Weight-Ding" in einen Topf wirft, verschenkt den eigentlichen Hebel: die richtige Spezialisierung pro Workload. Genau hier liegt der Builder-Vorteil 2026 – nicht in der Wahl eines Modells, sondern in einer Modell-Konstellation, die Generalist und Spezialist sauber trennt.


    → Kimi K2.6: Long-Horizon Agents Deep-Dive → Kimi K2.5: Das Modell hinter Cursors Composer 2 → Agentic Coding Tools Landscape → AI Abstraction Layer: Warum du nicht ein Modell wählst, sondern eine Konstellation → China-KI-Offensive: Das Muster hinter den Open-Weight-Wellen → Open-Weight-Setup für deinen Stack – sprich mit uns

    TeilenLinkedInWhatsAppE-Mail

    Verwandte Artikel

    Stilisierte Mistral-Flamme als Mixture-of-Experts-Netzwerk auf dunklem Hintergrund
    8. Juni 20265 min

    Mistral 3, Large 3 & Vibe: Warum das letzte Update Europas AI-Hoffnung zurück ins Spiel bringt

    Mistral hat in einem halben Jahr alles auf links gedreht: Mistral 3 mit Large 3 (675B MoE) als Open Weights, Medium 3.5 …

    Weiterlesen
    Visualisierung von Kimi K2.6 Long-Horizon Agents: Halbmond als Moonshot-Symbol mit verteilten Sub-Agent-Knoten über einem KoordinationsrasterDeep Dive
    21. April 20268 min

    Kimi K2.6: Warum die spannendste KI-Optimierung 2026 nicht Intelligenz ist – sondern Dauer

    Moonshot AI hat gestern Kimi K2.6 open-sourced. 1 Billion Parameter, 300 Sub-Agents, 13 Stunden autonome Codeoptimierung…

    Weiterlesen
    Kimi K2.5: Das chinesische Open-Weight-Modell hinter Cursors Composer 2
    26. März 20264 min

    Kimi K2.5: Das chinesische Open-Weight-Modell hinter Cursors Composer 2

    Cursors Composer 2 basiert heimlich auf Moonshot AIs Kimi K2.5 – einem 1-Billionen-Parameter Open-Weight-Modell aus Peki…

    Weiterlesen
    Visualisierung eines großen blassen Neural-Net-Spheres und eines kleineren, hellen Sphere mit Cyan/Gelb – die schrumpfende Frontier offener Modelle
    8. Juni 20265 min

    Nex-N2-Pro: Wie die Frontier der offenen Modelle in sechs Wochen um 75 % geschrumpft ist

    Vor sechs Wochen war DeepSeek-V4-Pro mit 1,6 Billionen Parametern das größte je veröffentlichte Open-Weight-Modell. Heut…

    Weiterlesen
    Projekt KNUT: 52 GB VRAM, null Cloud – lokale AI-Infrastruktur im Deep Dive
    10. April 20264 min

    Projekt KNUT: 52 GB VRAM, null Cloud – lokale AI-Infrastruktur im Deep Dive

    Ein Mac Mini M4, zwei NVIDIA-GPUs, 52 GB VRAM – Projekt KNUT vereint heterogene Hardware zu einer lokalen AI-Infrastrukt…

    Weiterlesen
    122 Milliarden Parameter auf deinem Laptop – was Qwen3.5 für dein Business bedeutet
    28. Februar 20263 min

    122 Milliarden Parameter auf deinem Laptop – was Qwen3.5 für dein Business bedeutet

    Alibabas Qwen3.5 schlägt GPT-5-mini in fast allen Benchmarks – und läuft lokal auf einem Laptop. Was das für Unternehmen…

    Weiterlesen
    Gemma 4 12B Coder läuft lokal auf einem Entwickler-Laptop – Code-Symbole strömen aus einem 12B-Chip
    15. Juni 20264 min

    Gemma 4 12B Coder: Lokale Code-Generierung wird zum Default

    Google bringt mit dem Gemma 4 12B Coder die spezialisierte Coding-Variante des Gemma-4-Stacks. 12B Parameter im GGUF-For…

    Weiterlesen
    Editorial Illustration zu MiniMax M3 – Open-Source-Frontier-Modell mit MSA-Architektur
    14. Juni 20264 min

    MiniMax M3: Wie ein Shanghaier Lab die Open-Source-Spitze neu definiert

    MiniMax M3 ist am 1. Juni 2026 erschienen: 1M-Kontext, native Multimodalität, 59% auf SWE-Bench Pro – als Open-Weight. W…

    Weiterlesen
    Eine stilisierte Fünf aus Schmetterlingen – Visual zu Claude Fable 5
    9. Juni 20265 min

    Claude Fable 5 & Mythos 5: Wenn AI von Tasks zu Responsibilities wechselt

    Anthropic launcht Claude Fable 5 und Mythos 5 – SOTA auf fast allen Benchmarks. Spannender als die Zahlen: Der Shift von…

    Weiterlesen