Stilisierte Mistral-Flamme als Mixture-of-Experts-Netzwerk auf dunklem Hintergrund

    Mistral 3, Large 3 & Vibe: Warum das letzte Update Europas AI-Hoffnung zurück ins Spiel bringt

    8. Juni 20265 min Lesezeit
    Till Freitag

    TL;DR: „Mistral 3 (Dezember 2025) brachte Large 3 als 675B-MoE unter Apache 2.0 zurück an die Open-Weights-Spitze. Medium 3.5 (Mai 2026) packt Chat, Reasoning und Code in ein 128B-Modell. Und aus Le Chat wurde Vibe – ein Remote-Coding-Agent, der echte Async-Workflows kann. Europa ist im AI-Rennen wieder relevant."

    — Till Freitag

    Kurzer Reality-Check: Wo Mistral vor sechs Monaten stand

    Ende 2025 war die Stimmung rund um Mistral nüchtern. Llama 4, DeepSeek-R1, Qwen3.5 und Kimi K2.5 hatten den Open-Weights-Markt unter sich aufgeteilt. Mistral Large 2 war solide, aber kein Frontier-Modell mehr. Le Chat war ein netter Konkurrent zu ChatGPT – ohne Wow-Effekt.

    Wer im Frühjahr 2026 gefragt hätte, ob Europa noch ein eigenes Frontier-Lab hat, hätte ein vorsichtiges "jein" bekommen.

    Sechs Monate später sieht das anders aus. Und der Grund ist eine erstaunlich dichte Release-Kadenz aus Paris.

    Mistral 3: Der Befreiungsschlag im Dezember 2025

    Am 2. Dezember 2025 hat Mistral Mistral 3 angekündigt – und damit gleich vier Modelle auf einen Schlag veröffentlicht:

    Modell Architektur Parameter Lizenz
    Mistral Large 3 Sparse MoE 41B aktiv / 675B total Apache 2.0
    Ministral 3 14B Dense 14B Apache 2.0
    Ministral 3 8B Dense 8B Apache 2.0
    Ministral 3 3B Dense 3B Apache 2.0

    Drei Dinge sind hier wichtig:

    1. Large 3 ist Mistrals erstes Mixture-of-Experts-Modell seit Mixtral – und mit 675B Gesamtparametern direkt auf Augenhöhe mit DeepSeek und Kimi.
    2. Alles Apache 2.0 – also wirklich freie Open Weights, keine "Modified MIT mit MAU-Schwellen" wie bei Llama oder Kimi.
    3. Multimodal und multilingual von Haus aus – 40+ Sprachen nativ, inkl. Bildverständnis. Genau der Punkt, an dem US-Modelle bei deutschen, französischen oder italienischen Inhalten oft schwächeln.

    Large 3 debütierte als #2 in der OSS-Non-Reasoning-Kategorie auf LMArena – ein Comeback, mit dem im November noch niemand gerechnet hätte. Eine Reasoning-Variante hat Mistral parallel angekündigt.

    Warum das technisch interessant ist

    Mistral hat Large 3 mit vLLM, Red Hat und NVIDIA co-optimiert. Konkret heißt das:

    • NVFP4-Checkpoint out of the box – läuft auf einem einzelnen 8×H100- oder 8×A100-Knoten via vLLM
    • TensorRT-LLM- und SGLang-Support zum Launch (nicht erst Monate später wie bei manchen anderen Releases)
    • Blackwell-optimierte MoE- und Attention-Kernel für GB200 NVL72

    Übersetzt für Builder: Du kannst Large 3 ab Tag 1 selbst hosten, ohne auf Community-Quantisierungen warten zu müssen. Für Unternehmen mit DSGVO-Druck ist das Gold wert. (Mehr zu Quantisierungs-Formaten →)

    Medium 3.5: Das neue Default-Workhorse (Mai 2026)

    Im Mai 2026 kam dann das Update, von dem alle reden: Mistral Medium 3.5.

    Spec Wert
    Architektur Dense
    Parameter 128B
    Lizenz Modifiziertes MIT (Open Weights)
    Self-Hosting Ab 4 GPUs
    Modi Instruct + Reasoning + Code in einem Modell
    Reasoning Effort Pro Request einstellbar

    Der Clou: Medium 3.5 vereint drei Dinge, die bisher meist getrennte Modelle waren – Instruction-Following, Reasoning und Coding. Du wählst pro Request, wie tief das Modell "nachdenken" soll. Das ist die gleiche Idee, die GPT-5.2 und Claude Opus 4.5 verfolgen, aber in einem 128B-Modell, das du selbst hosten kannst.

    Real-World-Performance: Medium 3.5 schlägt auf den meisten Coding- und Agentic-Benchmarks die alte Large-2-Generation und liegt nahe an Frontier-Modellen – bei einem Bruchteil der Inferenzkosten.

    Für unseren Stack heißt das: Medium 3.5 ist ein realistischer Kandidat als Default-Modell für Tool-Calling-Agents, ohne dass wir die Kontrolle an OpenAI oder Anthropic abgeben müssen.

    Le Chat wird zu Vibe: Der Move, der wirklich neu ist

    Am 22. Mai 2026 hat Mistral Vibe gelauncht – und kurz darauf Le Chat komplett in Vibe umbenannt. Das ist mehr als ein Rebranding.

    Was Vibe technisch neu macht:

    1. Remote-Coding-Agents in der Cloud. Du startest einen Coding-Task im Vibe CLI oder direkt im Chat – der Job läuft in einer Cloud-Sandbox weiter, auch wenn du den Laptop zuklappst.
    2. Teleport-Funktion. Eine lokale CLI-Session kannst du "hochteleportieren" in die Cloud. Das ist der Workflow, den viele bei Cursor und Claude Code vermissen.
    3. Work-Mode in Le Chat / Vibe. Multi-Step-Tasks mit paralleler Tool-Nutzung – also klassisches Agentic AI, aber innerhalb des Mistral-Stacks, ohne MCP-Bastelei.
    4. VS-Code-Extension. Vibe gibt es jetzt als Plugin – konkurriert also direkt mit Cursor, Composer 2 und Claude Code in der IDE.

    Das ist genau der Move, der Mistral aus der reinen Modell-Anbieter-Rolle holt und in den Tool-Layer schiebt – dort, wo aktuell das Geld verdient wird (siehe Cursor/Kimi-Diskussion →).

    Wo Mistral jetzt im Stack steht

    Wenn ich das mit unserem aktuellen Open-Source-LLM-Vergleich abgleiche, ergibt sich ein klares Bild:

    Use Case Empfehlung
    Frontier-Open-Weights auf eigener Infra Mistral Large 3 oder Kimi K2.5
    Default-Coding-Agent (managed) Vibe (Medium 3.5) oder Claude
    Self-Hosted "Workhorse" für Tool-Calling Medium 3.5
    Edge / Laptop / On-Device Ministral 3 8B oder Gemma 4
    DSGVO-kritische EU-Workloads Mistral-Stack (EU-Lab, EU-Hosting möglich)

    Letzter Punkt ist nicht trivial. Mistral ist das einzige Frontier-Lab mit Hauptsitz in der EU. Wer 2026 ernsthaft AI in regulierten Branchen (Healthcare, Public Sector, Banking) ausrollt, sollte mindestens evaluiert haben, ob die Mistral-Linie nicht der politisch und juristisch sauberere Weg ist – auch wenn die US-Modelle in Einzel-Benchmarks noch vorne liegen.

    Was wir konkret tun

    Bei Till Freitag fahren wir gerade drei parallele Experimente:

    1. Medium 3.5 als Backend für unsere internen Agents. Wir vergleichen Latenz und Tool-Calling-Treffsicherheit mit Claude Sonnet 4.5 auf realen monday.com-Workflows.
    2. Vibe in der Toolbox-Rotation. Unsere Vibe-Coder testen Vibe parallel zu Cursor und Claude Code – Fokus: Remote-Sessions für längere Refactorings.
    3. Large 3 für mehrsprachige Content-Pipelines. Speziell DE/FR/IT-Inhalte, wo die englischzentrierten Modelle oft den Ton verfehlen.

    Die ersten Ergebnisse sind ehrlich gesagt besser, als ich erwartet hätte. Speziell Medium 3.5 schlägt sich in unseren RevOps-Use-Cases überraschend gut.

    Was jetzt zu tun ist

    1. Wenn du heute auf Llama oder Mixtral läufst: Teste Medium 3.5 – das ist der direkte Upgrade-Pfad ohne Architektur-Umbau.
    2. Wenn du Cursor oder Claude Code nutzt: Probier Vibe für eine Woche aus. Vor allem die Remote-Sessions sind ein anderer Workflow.
    3. Wenn du gerade einen Self-Hosting-Stack baust: Large 3 mit vLLM ist der aktuell saubere Open-Weights-Pfad mit echter Apache-2.0-Lizenz.
    4. Wenn du in der EU regulierte Daten verarbeitest: Mistral gehört ab jetzt zwingend auf die Shortlist.

    Fazit

    Mistral war Anfang 2026 in der "Hat seine Zeit gehabt"-Schublade. Mit Mistral 3, Medium 3.5 und Vibe ist das Lab in sechs Monaten zurück an der Frontier – nicht bei jedem einzelnen Benchmark, aber im Gesamtpaket aus offenen Lizenzen, EU-Hosting, ehrlich offenen Modellen und einem ernstzunehmenden Tool-Layer.

    Das letzte Update ist nicht nur "ganz gut geworden". Es ist das wichtigste Lebenszeichen, das ein europäisches AI-Lab seit Jahren gegeben hat.


    → Open-Source-LLM-Vergleich: 20+ Modelle im Überblick → Kimi K2.5 & Cursor: Was der Composer-2-Move bedeutet → GGUF, GGML, Safetensors – Formate für lokale AI → Unsere AI-Services bei Till Freitag

    TeilenLinkedInWhatsAppE-Mail

    Verwandte Artikel

    Visualisierung eines großen blassen Neural-Net-Spheres und eines kleineren, hellen Sphere mit Cyan/Gelb – die schrumpfende Frontier offener Modelle
    8. Juni 20265 min

    Nex-N2-Pro: Wie die Frontier der offenen Modelle in sechs Wochen um 75 % geschrumpft ist

    Vor sechs Wochen war DeepSeek-V4-Pro mit 1,6 Billionen Parametern das größte je veröffentlichte Open-Weight-Modell. Heut…

    Weiterlesen
    Projekt KNUT: 52 GB VRAM, null Cloud – lokale AI-Infrastruktur im Deep Dive
    10. April 20264 min

    Projekt KNUT: 52 GB VRAM, null Cloud – lokale AI-Infrastruktur im Deep Dive

    Ein Mac Mini M4, zwei NVIDIA-GPUs, 52 GB VRAM – Projekt KNUT vereint heterogene Hardware zu einer lokalen AI-Infrastrukt…

    Weiterlesen
    Open-Source-LLMs im Vergleich 2026 – 25+ Modelle, die du kennen solltestDeep Dive
    7. März 202610 min

    Open-Source-LLMs im Vergleich 2026 – 25+ Modelle, die du kennen solltest

    Von Llama über Qwen bis Gemma 4: Alle wichtigen Open-Source-LLMs im Überblick – mit GitHub-Stars, Parametern, Lizenzen u…

    Weiterlesen
    122 Milliarden Parameter auf deinem Laptop – was Qwen3.5 für dein Business bedeutet
    28. Februar 20263 min

    122 Milliarden Parameter auf deinem Laptop – was Qwen3.5 für dein Business bedeutet

    Alibabas Qwen3.5 schlägt GPT-5-mini in fast allen Benchmarks – und läuft lokal auf einem Laptop. Was das für Unternehmen…

    Weiterlesen
    Visualisierung von Kimi K2.6 Long-Horizon Agents: Halbmond als Moonshot-Symbol mit verteilten Sub-Agent-Knoten über einem KoordinationsrasterDeep Dive
    21. April 20268 min

    Kimi K2.6: Warum die spannendste KI-Optimierung 2026 nicht Intelligenz ist – sondern Dauer

    Moonshot AI hat gestern Kimi K2.6 open-sourced. 1 Billion Parameter, 300 Sub-Agents, 13 Stunden autonome Codeoptimierung…

    Weiterlesen
    Kimi K2.5: Das chinesische Open-Weight-Modell hinter Cursors Composer 2
    26. März 20264 min

    Kimi K2.5: Das chinesische Open-Weight-Modell hinter Cursors Composer 2

    Cursors Composer 2 basiert heimlich auf Moonshot AIs Kimi K2.5 – einem 1-Billionen-Parameter Open-Weight-Modell aus Peki…

    Weiterlesen
    Geopolitische KI-Landschaft zwischen westlicher und östlicher TechnologieDeep Dive
    13. April 20268 min

    Chinas KI-Offensive: Von Hunter Alpha bis DeepSeek V4 auf Huawei-Chips

    Ein anonymes 1T-Modell, eine Verwechslung mit DeepSeek, und die Enthüllung, dass Xiaomi dahintersteckt. Gleichzeitig ste…

    Weiterlesen
    Gemma 4 KI-Modell läuft auf kompaktem Mini-PC – Frontier-Intelligenz wird lokal
    6. April 20264 min

    Gemma 4: Frontier-Intelligenz auf dem Laptop – der Hype ist real

    Googles Gemma 4 liefert GPT-4-Niveau in 14 GB. 85 Tokens pro Sekunde auf Consumer-Hardware, 256K Kontext, Function Calli…

    Weiterlesen
    Hunter Alpha enttarnt: Nicht DeepSeek V4, sondern Xiaomis MiMo-V2-Pro
    13. März 20264 min

    Hunter Alpha enttarnt: Nicht DeepSeek V4, sondern Xiaomis MiMo-V2-Pro

    Hunter Alpha war nicht DeepSeek V4 – sondern Xiaomis MiMo-V2-Pro. Wir korrigieren unsere Analyse, ordnen ein was passier…

    Weiterlesen