Stilisierte Mistral-Flamme als Mixture-of-Experts-Netzwerk auf dunklem Hintergrund

Mistral 3, Large 3 & Vibe: Warum das letzte Update Europas AI-Hoffnung zurück ins Spiel bringt

8. Juni 20265 min Lesezeit

TL;DR: „Mistral 3 (Dezember 2025) brachte Large 3 als 675B-MoE unter Apache 2.0 zurück an die Open-Weights-Spitze. Medium 3.5 (Mai 2026) packt Chat, Reasoning und Code in ein 128B-Modell. Und aus Le Chat wurde Vibe – ein Remote-Coding-Agent, der echte Async-Workflows kann. Europa ist im AI-Rennen wieder relevant."

— Till Freitag

Kurzer Reality-Check: Wo Mistral vor sechs Monaten stand

Ende 2025 war die Stimmung rund um Mistral nüchtern. Llama 4, DeepSeek-R1, Qwen3.5 und Kimi K2.5 hatten den Open-Weights-Markt unter sich aufgeteilt. Mistral Large 2 war solide, aber kein Frontier-Modell mehr. Le Chat war ein netter Konkurrent zu ChatGPT – ohne Wow-Effekt.

Wer im Frühjahr 2026 gefragt hätte, ob Europa noch ein eigenes Frontier-Lab hat, hätte ein vorsichtiges "jein" bekommen.

Sechs Monate später sieht das anders aus. Und der Grund ist eine erstaunlich dichte Release-Kadenz aus Paris.

Mistral 3: Der Befreiungsschlag im Dezember 2025

Am 2. Dezember 2025 hat Mistral Mistral 3 angekündigt – und damit gleich vier Modelle auf einen Schlag veröffentlicht:

Modell	Architektur	Parameter	Lizenz
Mistral Large 3	Sparse MoE	41B aktiv / 675B total	Apache 2.0
Ministral 3 14B	Dense	14B	Apache 2.0
Ministral 3 8B	Dense	8B	Apache 2.0
Ministral 3 3B	Dense	3B	Apache 2.0

Drei Dinge sind hier wichtig:

Large 3 ist Mistrals erstes Mixture-of-Experts-Modell seit Mixtral – und mit 675B Gesamtparametern direkt auf Augenhöhe mit DeepSeek und Kimi.
Alles Apache 2.0 – also wirklich freie Open Weights, keine "Modified MIT mit MAU-Schwellen" wie bei Llama oder Kimi.
Multimodal und multilingual von Haus aus – 40+ Sprachen nativ, inkl. Bildverständnis. Genau der Punkt, an dem US-Modelle bei deutschen, französischen oder italienischen Inhalten oft schwächeln.

Large 3 debütierte als #2 in der OSS-Non-Reasoning-Kategorie auf LMArena – ein Comeback, mit dem im November noch niemand gerechnet hätte. Eine Reasoning-Variante hat Mistral parallel angekündigt.

Warum das technisch interessant ist

Mistral hat Large 3 mit vLLM, Red Hat und NVIDIA co-optimiert. Konkret heißt das:

NVFP4-Checkpoint out of the box – läuft auf einem einzelnen 8×H100- oder 8×A100-Knoten via vLLM
TensorRT-LLM- und SGLang-Support zum Launch (nicht erst Monate später wie bei manchen anderen Releases)
Blackwell-optimierte MoE- und Attention-Kernel für GB200 NVL72

Übersetzt für Builder: Du kannst Large 3 ab Tag 1 selbst hosten, ohne auf Community-Quantisierungen warten zu müssen. Für Unternehmen mit DSGVO-Druck ist das Gold wert. (Mehr zu Quantisierungs-Formaten →)

Medium 3.5: Das neue Default-Workhorse (Mai 2026)

Im Mai 2026 kam dann das Update, von dem alle reden: Mistral Medium 3.5.

Spec	Wert
Architektur	Dense
Parameter	128B
Lizenz	Modifiziertes MIT (Open Weights)
Self-Hosting	Ab 4 GPUs
Modi	Instruct + Reasoning + Code in einem Modell
Reasoning Effort	Pro Request einstellbar

Der Clou: Medium 3.5 vereint drei Dinge, die bisher meist getrennte Modelle waren – Instruction-Following, Reasoning und Coding. Du wählst pro Request, wie tief das Modell "nachdenken" soll. Das ist die gleiche Idee, die GPT-5.2 und Claude Opus 4.5 verfolgen, aber in einem 128B-Modell, das du selbst hosten kannst.

Real-World-Performance: Medium 3.5 schlägt auf den meisten Coding- und Agentic-Benchmarks die alte Large-2-Generation und liegt nahe an Frontier-Modellen – bei einem Bruchteil der Inferenzkosten.

Für unseren Stack heißt das: Medium 3.5 ist ein realistischer Kandidat als Default-Modell für Tool-Calling-Agents, ohne dass wir die Kontrolle an OpenAI oder Anthropic abgeben müssen.

Le Chat wird zu Vibe: Der Move, der wirklich neu ist

Am 22. Mai 2026 hat Mistral Vibe gelauncht – und kurz darauf Le Chat komplett in Vibe umbenannt. Das ist mehr als ein Rebranding.

Was Vibe technisch neu macht:

Remote-Coding-Agents in der Cloud. Du startest einen Coding-Task im Vibe CLI oder direkt im Chat – der Job läuft in einer Cloud-Sandbox weiter, auch wenn du den Laptop zuklappst.
Teleport-Funktion. Eine lokale CLI-Session kannst du "hochteleportieren" in die Cloud. Das ist der Workflow, den viele bei Cursor und Claude Code vermissen.
Work-Mode in Le Chat / Vibe. Multi-Step-Tasks mit paralleler Tool-Nutzung – also klassisches Agentic AI, aber innerhalb des Mistral-Stacks, ohne MCP-Bastelei.
VS-Code-Extension. Vibe gibt es jetzt als Plugin – konkurriert also direkt mit Cursor, Composer 2 und Claude Code in der IDE.

Das ist genau der Move, der Mistral aus der reinen Modell-Anbieter-Rolle holt und in den Tool-Layer schiebt – dort, wo aktuell das Geld verdient wird (siehe Cursor/Kimi-Diskussion →).

Wo Mistral jetzt im Stack steht

Wenn ich das mit unserem aktuellen Open-Source-LLM-Vergleich abgleiche, ergibt sich ein klares Bild:

Use Case	Empfehlung
Frontier-Open-Weights auf eigener Infra	Mistral Large 3 oder Kimi K2.5
Default-Coding-Agent (managed)	Vibe (Medium 3.5) oder Claude
Self-Hosted "Workhorse" für Tool-Calling	Medium 3.5
Edge / Laptop / On-Device	Ministral 3 8B oder Gemma 4
DSGVO-kritische EU-Workloads	Mistral-Stack (EU-Lab, EU-Hosting möglich)

Letzter Punkt ist nicht trivial. Mistral ist das einzige Frontier-Lab mit Hauptsitz in der EU. Wer 2026 ernsthaft AI in regulierten Branchen (Healthcare, Public Sector, Banking) ausrollt, sollte mindestens evaluiert haben, ob die Mistral-Linie nicht der politisch und juristisch sauberere Weg ist – auch wenn die US-Modelle in Einzel-Benchmarks noch vorne liegen.

Was wir konkret tun

Bei Till Freitag fahren wir gerade drei parallele Experimente:

Medium 3.5 als Backend für unsere internen Agents. Wir vergleichen Latenz und Tool-Calling-Treffsicherheit mit Claude Sonnet 4.5 auf realen monday.com-Workflows.
Vibe in der Toolbox-Rotation. Unsere Vibe-Coder testen Vibe parallel zu Cursor und Claude Code – Fokus: Remote-Sessions für längere Refactorings.
Large 3 für mehrsprachige Content-Pipelines. Speziell DE/FR/IT-Inhalte, wo die englischzentrierten Modelle oft den Ton verfehlen.

Die ersten Ergebnisse sind ehrlich gesagt besser, als ich erwartet hätte. Speziell Medium 3.5 schlägt sich in unseren RevOps-Use-Cases überraschend gut.

Was jetzt zu tun ist

Wenn du heute auf Llama oder Mixtral läufst: Teste Medium 3.5 – das ist der direkte Upgrade-Pfad ohne Architektur-Umbau.
Wenn du Cursor oder Claude Code nutzt: Probier Vibe für eine Woche aus. Vor allem die Remote-Sessions sind ein anderer Workflow.
Wenn du gerade einen Self-Hosting-Stack baust: Large 3 mit vLLM ist der aktuell saubere Open-Weights-Pfad mit echter Apache-2.0-Lizenz.
Wenn du in der EU regulierte Daten verarbeitest: Mistral gehört ab jetzt zwingend auf die Shortlist.

Fazit

Mistral war Anfang 2026 in der "Hat seine Zeit gehabt"-Schublade. Mit Mistral 3, Medium 3.5 und Vibe ist das Lab in sechs Monaten zurück an der Frontier – nicht bei jedem einzelnen Benchmark, aber im Gesamtpaket aus offenen Lizenzen, EU-Hosting, ehrlich offenen Modellen und einem ernstzunehmenden Tool-Layer.

Das letzte Update ist nicht nur "ganz gut geworden". Es ist das wichtigste Lebenszeichen, das ein europäisches AI-Lab seit Jahren gegeben hat.

→ Open-Source-LLM-Vergleich: 20+ Modelle im Überblick → Kimi K2.5 & Cursor: Was der Composer-2-Move bedeutet → GGUF, GGML, Safetensors – Formate für lokale AI → Unsere AI-Services bei Till Freitag

TeilenLinkedIn WhatsApp E-Mail

Verwandte Artikel

Visualisierung eines großen blassen Neural-Net-Spheres und eines kleineren, hellen Sphere mit Cyan/Gelb – die schrumpfende Frontier offener Modelle

8. Juni 20265 min

Nex-N2-Pro: Wie die Frontier der offenen Modelle in sechs Wochen um 75 % geschrumpft ist

Vor sechs Wochen war DeepSeek-V4-Pro mit 1,6 Billionen Parametern das größte je veröffentlichte Open-Weight-Modell. Heut…

10. April 20264 min

Projekt KNUT: 52 GB VRAM, null Cloud – lokale AI-Infrastruktur im Deep Dive

Ein Mac Mini M4, zwei NVIDIA-GPUs, 52 GB VRAM – Projekt KNUT vereint heterogene Hardware zu einer lokalen AI-Infrastrukt…

Open-Source-LLMs im Vergleich 2026 – 25+ Modelle, die du kennen solltest

Deep Dive

7. März 202610 min

Open-Source-LLMs im Vergleich 2026 – 25+ Modelle, die du kennen solltest

Von Llama über Qwen bis Gemma 4: Alle wichtigen Open-Source-LLMs im Überblick – mit GitHub-Stars, Parametern, Lizenzen u…

28. Februar 20263 min

122 Milliarden Parameter auf deinem Laptop – was Qwen3.5 für dein Business bedeutet

Alibabas Qwen3.5 schlägt GPT-5-mini in fast allen Benchmarks – und läuft lokal auf einem Laptop. Was das für Unternehmen…

GLM-5.2 vs. Kimi K2.7 Code – Split-Screen-Illustration mit Z-Letter und Halbmond-Symbol

21. Juni 20266 min

GLM-5.2 vs. Kimi K2.7 Code: Zwei Open-Weight-Releases in einer Woche – aber zwei sehr unterschiedliche Wetten

Innerhalb von vier Tagen haben Z.ai (GLM-5.2) und Moonshot AI (Kimi K2.7 Code) ihre nächste Generation Open-Weight-Model…

Visualisierung von Kimi K2.6 Long-Horizon Agents: Halbmond als Moonshot-Symbol mit verteilten Sub-Agent-Knoten über einem Koordinationsraster

Deep Dive

21. April 20268 min

Kimi K2.6: Warum die spannendste KI-Optimierung 2026 nicht Intelligenz ist – sondern Dauer

Moonshot AI hat gestern Kimi K2.6 open-sourced. 1 Billion Parameter, 300 Sub-Agents, 13 Stunden autonome Codeoptimierung…

26. März 20264 min

Kimi K2.5: Das chinesische Open-Weight-Modell hinter Cursors Composer 2

Cursors Composer 2 basiert heimlich auf Moonshot AIs Kimi K2.5 – einem 1-Billionen-Parameter Open-Weight-Modell aus Peki…

Gemma 4 12B Coder läuft lokal auf einem Entwickler-Laptop – Code-Symbole strömen aus einem 12B-Chip

15. Juni 20264 min

Gemma 4 12B Coder: Lokale Code-Generierung wird zum Default

Google bringt mit dem Gemma 4 12B Coder die spezialisierte Coding-Variante des Gemma-4-Stacks. 12B Parameter im GGUF-For…

Editorial Illustration zu MiniMax M3 – Open-Source-Frontier-Modell mit MSA-Architektur

14. Juni 20264 min

MiniMax M3: Wie ein Shanghaier Lab die Open-Source-Spitze neu definiert

MiniMax M3 ist am 1. Juni 2026 erschienen: 1M-Kontext, native Multimodalität, 59% auf SWE-Bench Pro – als Open-Weight. W…