
GLM-5.2 vs. Kimi K2.7 Code: Zwei Open-Weight-Releases in einer Woche – aber zwei sehr unterschiedliche Wetten
TL;DR: „GLM-5.2 (Z.ai, 16.06.) und Kimi K2.7 Code (Moonshot, 12.06.) sind in derselben Woche erschienen, beide Open Weight, beide im gleichen Preisband. Aber: GLM-5.2 ist ein generalistischer Long-Horizon-Allrounder mit 1M Kontext und führt aktuell den Artificial-Analysis-Index für Open Weights an. Kimi K2.7 Code ist ein coding-spezialisierter Agent, der 30 % weniger Thinking-Tokens braucht. Wer den falschen wählt, zahlt doppelt."
— Till FreitagEine Woche, zwei Releases, zwei Strategien
Mitte Juni 2026 hat das chinesische Open-Weight-Lager innerhalb von vier Tagen zweimal nachgelegt:
- 12. Juni 2026 – Moonshot AI veröffentlicht Kimi K2.7 Code. Open Source, Modified MIT, coding-fokussierter Agent auf Basis von K2.6.
- 16. Juni 2026 – Z.ai (vormals Zhipu) veröffentlicht GLM-5.2. Open Weight, MIT, generalistisches Long-Horizon-Modell mit 1M-Token-Kontext.
Beide Modelle landen ungefähr im selben Preisband, beide sind frei kommerziell nutzbar (mit den üblichen Schwellen), beide werden in den ersten Tweet-Threads als „der jeweils andere, nur besser" beschrieben.
Das ist falsch.
Wer beide Releases nebeneinander legt, sieht: Z.ai und Moonshot haben bewusst entgegengesetzte Wetten abgeschlossen. Die eine geht in die Breite (Kontext, Generalismus, Pareto-Frontier). Die andere geht in die Tiefe (Coding-Spezialisierung, Token-Effizienz). Welche dir näher liegt, hängt davon ab, was du nachts laufen lassen willst.
Die nüchterne Spec-Tabelle
| Spec | GLM-5.2 | Kimi K2.7 Code |
|---|---|---|
| Release | 16. Juni 2026 | 12. Juni 2026 |
| Hersteller | Z.ai (Zhipu AI), China | Moonshot AI, China |
| Architektur | MoE | MoE (auf Basis K2.6) |
| Total Parameter | 744 Mrd. | ~1 Bio. |
| Aktive Parameter / Token | 40 Mrd. | 32 Mrd. |
| Kontextfenster | 1.000.000 Tokens | 256.000 Tokens |
| Lizenz | MIT | Modified MIT |
| Spezialisierung | Generalist + Long-Horizon Reasoning | Coding-Agent + Long-Horizon Engineering |
| Distinct-Bench-Highlight | AA Intelligence Index 51 (führt Open Weights) | +21.8 % auf Kimi Code Bench v2 vs. K2.6 |
| Distinct-Effizienz-Highlight | +11 Punkte AA-Index bei gleicher Modellgröße wie GLM-5.1 | –30 % Thinking-Tokens vs. K2.6 |
| Verfügbar | HuggingFace, Z.ai API, Cloudflare | HuggingFace, Kimi API, Kimi Code CLI |
Zwei Sachen springen sofort ins Auge:
- Der Kontext-Gap. GLM-5.2 hat eine Größenordnung mehr Kontext als K2.7 Code (1M vs. 256K). Das ist kein Marketing-Specs-Detail. Das ist eine andere Klasse von Use Cases (siehe unten).
- Die Effizienz-Achse. GLM-5.2 ist effizienter pro Intelligenz-Punkt (gleiche Größe, +11 AA-Index). Kimi K2.7 Code ist effizienter pro Task (–30 % Thinking-Tokens bei bessere Coding-Performance).
Beide haben optimiert – aber auf unterschiedlichen Achsen.
GLM-5.2: Der Generalist auf der Pareto-Frontier
Z.ai hat GLM-5.2 explizit als „long-horizon tasks"-Modell positioniert. Der wichtigste Datenpunkt aus dem Release-Material:
GLM-5.2 ist das neue führende Open-Weights-Modell im Artificial Analysis Intelligence Index (Score 51) und liegt auf der Pareto-Frontier von Intelligenz vs. Cost-per-Task.
Übersetzt: Für jeden Dollar, den du an Inferenz-Kosten ausgibst, bekommst du aktuell von keinem anderen Open-Weight-Modell mehr Intelligenz. Und das bei gleicher Modellgröße wie GLM-5.1 – die +11 Indexpunkte kommen nicht aus mehr Parametern, sondern aus besserem Training und Reasoning-RL.
Die drei Hebel, die GLM-5.2 für Builder interessant machen:
- Solides 1M-Token-Kontextfenster. Nicht „advertised", sondern stabil über lange Trajektorien gehalten. Das bedeutet: ein komplettes mittelgroßes Repo, eine Quartalsdokumentation oder ein Multi-Session-Agent-Run passen in einen einzigen Inference-Call ohne RAG-Hacks.
- Advanced Coding mit Flexibilität. Coding-Benchmarks liegen nah an proprietären Frontier-Modellen, ohne dass Z.ai daraus ein reines Coding-Modell gemacht hat. Brauchbar für gemischte Pipelines (Code + Docs + Reasoning).
- MIT-Lizenz. Keine MAU-Schwelle, keine kommerziellen Einschränkungen, kein „Modified". Für Unternehmen mit Compliance-Bedenken ist das einfacher zu auditieren.
Wenn du heute einen Agenten baust, der heterogene Workloads managen soll – Code schreiben, dokumentieren, ein 200-Seiten-PDF analysieren, ein Sales-Deck generieren – ist GLM-5.2 die spannendere Wahl. Vergleichbar mit unserer Lesart in AI Abstraction Layer: Du willst ein Modell, das den Großteil der Routine abdeckt, und teure Frontier-Calls nur für die harten 10 % aufrufen.
Kimi K2.7 Code: Der Spezialist, der weniger denkt
Moonshot hat mit K2.7 Code eine andere Wette platziert. Statt K2.6 (siehe Kimi K2.6 Deep-Dive) generalistisch zu verbessern, haben sie das Modell chirurgisch auf agentisches Coding spezialisiert.
Drei Kernzahlen aus dem Release:
- +21.8 % auf Kimi Code Bench v2 gegenüber K2.6 – das ist Moonshots interner Real-World-Bench mit langen Engineering-Trajektorien
- –30 % Thinking-Tokens pro Task gegenüber K2.6 bei gleichzeitig besserer End-to-End-Task-Completion
- Modified MIT mit der gleichen 100M-MAU-Schwelle wie K2.6 – für die meisten Builder irrelevant
Der Punkt mit den 30 % weniger Thinking-Tokens ist subtil aber wirtschaftlich relevant. Long-Horizon-Coding-Agents fressen Tokens im Reasoning-Step. Wenn du auf SWE-Bench-ähnliche Tasks 30 % weniger Tokens brauchst, sinken nicht nur deine Inferenz-Kosten – die Wall-Clock-Time des Agents sinkt mit, was bei mehrstündigen Läufen sofort spürbar wird.
Was K2.7 Code nicht ist:
- Kein Generalist mehr in der Breite, in der K2.6 es war. Wer Multi-Domain-Agents baut, sollte bei K2.6 bleiben oder GLM-5.2 testen.
- Kein 1M-Kontext-Modell. Bei sehr großen Repos brauchst du weiter RAG-/Skill-Routing.
- Kein vollständiger Swarm-Stack. Die 300-Sub-Agent-Koordination aus K2.6 bleibt das Referenzmodell für Swarm-Use-Cases.
Wenn du heute Cursor-/Claude-Code-ähnliche Coding-Pipelines selbst hostest, ist K2.7 Code die wirtschaftlich interessantere Wahl. Wenn du in der Tiefe optimieren willst, was Sub-Agents in einem Coding-Workflow tun, lies parallel unseren Agentic Coding Tools Landscape.
Welches Modell für welchen Use Case
Statt eines „Sieger"-Verdikts hier die Entscheidungsmatrix, die wir intern verwenden:
| Use Case | Empfehlung | Warum |
|---|---|---|
| Long-Horizon Coding-Agent (Repo refaktorieren, Issues abarbeiten) | Kimi K2.7 Code | Spezialisiert, –30 % Tokens, +21.8 % Real-World-Bench |
| Generalist-Agent mit gemischten Workloads (Code + Docs + Analyse) | GLM-5.2 | Pareto-Frontier, 1M Kontext, MIT |
| Sehr langes Kontextfenster nötig (>256K Tokens) | GLM-5.2 | Einzige Open-Weight-Option mit solidem 1M-Kontext |
| Swarm-Koordination, viele heterogene Sub-Agents | Kimi K2.6 (nicht K2.7 Code) | Swarm-Stack mit 300 Sub-Agents bleibt unverändert in K2.6 |
| EU-Datensouveränität, on-prem Deployment | Beide möglich | Beide vLLM-/SGLang-kompatibel, MIT bzw. Modified MIT |
| Maximale Compliance-Simplizität | GLM-5.2 | Reine MIT, keine MAU-Schwelle |
Konkret bei uns: Wir nutzen aktuell K2.7 Code für Agentic-Coding-Pipelines in der internen Toolchain und beobachten GLM-5.2 als Default-Generalist für interne Long-Horizon-Workflows. Ein endgültiges Ablöse-Urteil über die Vorgängergeneration (K2.6, Claude Opus 4.6) sprechen wir frühestens nach 4 Wochen Produktivnutzung.
Strategisch: Warum beide Releases in dieselbe Woche fallen
Dass GLM-5.2 und Kimi K2.7 Code innerhalb einer Woche erscheinen, ist kein Zufall. Es ist die Fortsetzung eines Musters, das wir seit der China-KI-Offensive 2025 beobachten: Chinesische Labs takten Open-Weight-Releases dicht, oft in Wellen, oft kurz vor oder nach Frontier-Closed-Model-Releases der US-Labs.
Der Effekt für den Markt:
- Der Preisanker für proprietäre Modelle wird kontinuierlich nach unten gezogen. Wer als OpenAI oder Anthropic für eine Task 10× mehr verlangt als ein vergleichbares Open-Weight-Modell, muss diesen Premium begründen können – mit Latency, Reliability, Tool-Ökosystem oder Compliance.
- Builder bekommen ein realistisches Open-Weight-Backup für jede Task. Coding? Kimi K2.7 Code. Generalist? GLM-5.2. Long-Horizon-Swarm? Kimi K2.6. Niemand muss eine kritische Pipeline an einen einzigen Closed-Source-Anbieter binden.
- Die Spezialisierung beschleunigt sich. K2.7 Code ist ein Coding-Fork von K2.6. Es ist nicht unwahrscheinlich, dass wir in den nächsten Monaten Browser-Forks, Research-Forks und Data-Analyst-Forks sehen – pro Use Case ein optimierter Open-Weight-Spezialist.
Wer als Builder noch denkt, „Open Weight ist immer ein Trade-off gegen Frontier", optimiert seit ca. 6 Monaten auf der falschen Achse. Die Frage ist nicht ob du Open Weight einsetzen kannst, sondern welches du für welchen Workload nimmst.
Was du diese Woche praktisch tun kannst
- Beide Modelle auf HuggingFace testen.
zai-org/GLM-5.2undmoonshotai/Kimi-K2.7-Code. Beide laufen mit vLLM und SGLang ohne Custom-Patches. - Eine Real-World-Task pro Modell laufen lassen. Nicht Benchmarks – eine echte Aufgabe aus deinem Backlog. Zähle Tokens, Wall-Clock-Time und subjektive Output-Qualität.
- Den Use Case ehrlich klassifizieren. Coding-spezialisiert oder generalistisch? >256K Kontext nötig? Die Antwort darauf ist 80 % der Modellauswahl.
- Den Lizenztext lesen. MIT vs. Modified MIT klingt nach Detail – für die Legal-Abteilung ist es relevant. Bei MAU >100M wird Kimis Modified-MIT-Schwelle scharf.
Fazit: Zwei Modelle, zwei Wetten, eine Erkenntnis
GLM-5.2 und Kimi K2.7 Code sind keine Konkurrenten im engen Sinn. Sie sind zwei klare Antworten auf zwei verschiedene Fragen:
- „Wie baue ich den günstigsten generalistischen Long-Horizon-Agenten?" → GLM-5.2.
- „Wie baue ich den effizientesten Coding-Agenten, der über Stunden kohärent bleibt?" → Kimi K2.7 Code.
Wer beide Modelle als „das chinesische Open-Weight-Ding" in einen Topf wirft, verschenkt den eigentlichen Hebel: die richtige Spezialisierung pro Workload. Genau hier liegt der Builder-Vorteil 2026 – nicht in der Wahl eines Modells, sondern in einer Modell-Konstellation, die Generalist und Spezialist sauber trennt.
→ Kimi K2.6: Long-Horizon Agents Deep-Dive → Kimi K2.5: Das Modell hinter Cursors Composer 2 → Agentic Coding Tools Landscape → AI Abstraction Layer: Warum du nicht ein Modell wählst, sondern eine Konstellation → China-KI-Offensive: Das Muster hinter den Open-Weight-Wellen → Open-Weight-Setup für deinen Stack – sprich mit uns








