Meta Muse Spark: Beeindruckend bei Health, schwach beim Coding – und ein strategisches Problem

    Meta Muse Spark: Beeindruckend bei Health, schwach beim Coding – und ein strategisches Problem

    Till FreitagTill Freitag13. April 20264 min read
    Till Freitag

    TL;DR: „Muse Spark ist Metas bestes Modell aller Zeiten und kostenlos. Es führt bei Health-Benchmarks und wissenschaftlichem Reasoning, fällt aber beim Coding (59 vs. 75 GPT-5.4) und agentic Tasks dramatisch zurück. Der eigentliche Elefant im Raum: Das Modell ist closed-source – ein Bruch mit Metas Open-Source-DNA."

    — Till Freitag

    Das Wichtigste in 30 Sekunden

    Am 8. April 2026 hat Meta Muse Spark vorgestellt – das erste Modell der neuen Meta Superintelligence Labs (MSL) unter der Leitung von Alexandr Wang. Neun Monate Neuaufbau, neuer Stack, neue Architektur.

    Die Headlines klingen beeindruckend: Top-5 im Artificial Analysis Intelligence Index, bestes Modell für medizinisches Reasoning, kostenlos für alle 3+ Milliarden Meta-Nutzer.

    Aber wer genauer hinschaut, sieht ein differenzierteres Bild.


    Was Muse Spark wirklich kann

    Health & Medical AI: Klasse für sich

    Hier hat Meta geliefert. 42.8 auf HealthBench Hard – besser als GPT-5.4 (40.1) und doppelt so gut wie Gemini 3.1 Pro (20.6). Über 1.000 Ärzte haben an den Trainingsdaten mitgearbeitet.

    Das ist kein Zufall, sondern Strategie: Meta hat 3 Milliarden Nutzer auf WhatsApp, Instagram und Facebook. Ein AI-Assistent, der gesundheitliche Fragen zuverlässig beantworten kann, ist ein massiver Retention-Hebel.

    Multimodale Vision: Stark, aber nicht die Nummer 1

    80.5% auf MMMU-Pro (Gemini liegt bei 82.4%). Bei CharXiv Reasoning – also Chart- und Datenverständnis – führt Muse Spark mit 86.4 vor GPT-5.4 (82.8). Wer viel mit visuellen Daten arbeitet, findet hier ein starkes Tool.

    Wissenschaftliches Reasoning: Der Contemplating-Modus

    Muse Sparks Killer-Feature ist der Contemplating-Modus: Statt ein einzelnes Modell härter denken zu lassen, orchestriert es mehrere Agenten parallel. Das Ergebnis: 50.2% auf Humanity's Last Exam – besser als GPT-5.4 Pro (43.9%) und Gemini Deep Think (48.4%).


    Wo Muse Spark versagt

    Coding: Nicht mal ansatzweise konkurrenzfähig

    Hier wird es unbequem. Terminal-Bench 2.0: 59.0 – während GPT-5.4 bei 75.1 liegt und Gemini bei 68.5. Das ist kein kleiner Rückstand, das ist eine andere Liga.

    Für jeden, der AI zum Programmieren nutzt – und das sind immer mehr Entwickler und "Vibe Coder" – ist Muse Spark schlicht keine Option. Claude und GPT bleiben hier unangefochten.

    Agentic Tasks: Nicht bereit für autonomes Arbeiten

    GDPval-AA: 1.444 ELO vs. GPT-5.4 (1.674) und Claude Opus 4.6 (1.607). Wenn ein AI-Modell selbstständig mehrstufige Workflows abarbeiten soll – Spreadsheets ausfüllen, Websites navigieren, Dokumente verwalten – dann ist Muse Spark nicht zuverlässig genug.

    Abstract Reasoning: Der größte blinde Fleck

    ARC-AGI-2: 42.5 vs. GPT-5.4 (76.1) und Gemini (76.5). Das ist nicht knapp – das ist weniger als die Hälfte. Bei neuartigen Pattern-Recognition-Aufgaben, die echte Generalisierung erfordern, bricht Muse Spark ein.


    Die Benchmark-Tabelle

    Benchmark Muse Spark GPT-5.4 Claude Opus 4.6 Gemini 3.1 Pro
    AI Analysis Index 52 57 53 57
    Humanity's Last Exam 50.2% 43.9% 48.4%
    HealthBench Hard 42.8 40.1 20.6
    CharXiv Reasoning 86.4 82.8 80.2
    MMMU-Pro (Vision) 80.5% 82.4%
    Terminal-Bench (Coding) 59.0 75.1 68.5
    ARC-AGI-2 42.5 76.1 76.5
    GDPval-AA (Agentic) 1.444 1.674 1.607
    Preis Kostenlos Abo Abo Freemium

    Der Elefant im Raum: Closed Source

    Und hier wird es strategisch interessant. Meta hat jahrelang die Open-Source-Flagge geschwenkt. Llama war das erklärte Gegenmodell zu OpenAIs und Googles Closed-Source-Ansatz. Zuckerberg hat Open Source als moralischen Imperativ positioniert.

    Muse Spark ist closed-source.

    Ja, Meta hat angekündigt, "in Zukunft" Open-Source-Weights zu veröffentlichen. Aber es gibt keinen Zeitplan. Und die Tatsache, dass das beste Modell des Unternehmens hinter einer geschlossenen API sitzt, sendet ein klares Signal: Wenn es um echte Frontier-Performance geht, priorisiert Meta Kontrolle über Offenheit.

    Das ist keine Kritik an der Entscheidung per se – OpenAI und Anthropic machen das Gleiche. Aber es untergräbt das Narrativ, mit dem Meta sich jahrelang differenziert hat.


    Was das für das AI-Rennen bedeutet

    1. Meta spielt ein anderes Spiel

    Während OpenAI den Consumer-Superapp baut und Anthropic das Developer-OS, fokussiert Meta auf Distribution. 3+ Milliarden Nutzer, die Muse Spark kostenlos über WhatsApp, Instagram und Facebook nutzen können – das ist ein Moat, den kein Startup replizieren kann.

    2. Der Health-Fokus ist clever

    Meta positioniert AI nicht als Produktivitäts-Tool, sondern als persönlichen Gesundheitsberater. Das klingt nach einem netten Feature, ist aber potenziell ein Paradigmenwechsel: Wenn Nutzer anfangen, ihre Gesundheitsfragen einem AI-Assistenten auf WhatsApp zu stellen statt Google, verschiebt sich ein Milliardenmarkt.

    3. Coding bleibt Metas Achillesferse

    Das ist das Dilemma: Die Developer-Community – die Multiplikatoren, die Ökosysteme bauen – braucht Coding-Fähigkeiten. Und genau dort ist Muse Spark am schwächsten. Solange Meta diese Lücke nicht schließt, bleibt Claude/GPT das Developer-Tool der Wahl.


    Unsere Einschätzung

    Muse Spark ist ein beeindruckendes erstes Modell der Meta Superintelligence Labs. Der Health-Fokus ist strategisch klug, der Contemplating-Modus technisch innovativ, und die kostenlose Verfügbarkeit setzt die Konkurrenz unter Druck.

    Aber für professionelle Anwendungsfälle – Coding, Agent Workflows, abstrakte Problemlösung – ist Muse Spark Stand heute nicht konkurrenzfähig. Es ist ein Consumer-Modell mit Frontier-Ambitionen, kein Frontier-Modell mit Consumer-Reichweite.

    Der größte Widerspruch bleibt die Closed-Source-Entscheidung. Meta muss sich entscheiden: Will man das Unternehmen sein, das AI demokratisiert – oder das Unternehmen, das 3 Milliarden Nutzer in ein geschlossenes AI-Ökosystem einschließt? Beides gleichzeitig funktioniert nicht langfristig.

    Wir werden Muse Spark in den kommenden Wochen in unsere Tool-Vergleiche integrieren und die Entwicklung beobachten. Meta hat die Ressourcen, die Coding-Lücke zu schließen. Die Frage ist, ob sie es wollen – oder ob sie lieber der beste Health-AI-Anbieter der Welt werden möchten.


    Quellen: Meta AI Blog, Artificial Analysis Intelligence Index v4.0, FelloAI Benchmark-Analyse

    TeilenLinkedInWhatsAppE-Mail

    Related Articles

    Geopolitische KI-Landschaft zwischen westlicher und östlicher TechnologieDeep Dive
    April 13, 20268 min

    Chinas KI-Offensive: Von Hunter Alpha bis DeepSeek V4 auf Huawei-Chips

    Ein anonymes 1T-Modell, eine Verwechslung mit DeepSeek, und die Enthüllung, dass Xiaomi dahintersteckt. Gleichzeitig ste…

    Read more
    Das AI-Rennen in 31 Meilensteinen: Die komplette OpenAI vs. Anthropic Timeline
    April 11, 20262 min

    Das AI-Rennen in 31 Meilensteinen: Die komplette OpenAI vs. Anthropic Timeline

    Von GPT-4o bis Project Glasswing: Jede Akquisition, jeder Modell-Launch, jedes Produktrelease von OpenAI und Anthropic a…

    Read more
    Googles $185-Milliarden-Wette: Wie Gemini 3.1 Pro, Vertex AI und die größte Infrastruktur-Offensive der Tech-Geschichte das AI-Rennen verändern
    April 11, 20266 min

    Googles $185-Milliarden-Wette: Wie Gemini 3.1 Pro, Vertex AI und die größte Infrastruktur-Offensive der Tech-Geschichte das AI-Rennen verändern

    Alphabet investiert bis zu $185 Milliarden in AI-Infrastruktur – mehr als das BIP von 140 Ländern. Gemini 3.1 Pro verdop…

    Read more
    OpenAI kauft einen \"Fernsehsender\". Anthropic baut die Zukunft der Software-Entwicklung. Und Google? Spielt ein ganz anderes Spiel.
    April 11, 20265 min

    OpenAI kauft einen \"Fernsehsender\". Anthropic baut die Zukunft der Software-Entwicklung. Und Google? Spielt ein ganz anderes Spiel.

    OpenAI kauft TBPN, ein Jony-Ive-Hardware-Startup und baut einen Desktop-Superapp. Anthropic macht Claude zum Developer-O…

    Read more
    Schachfiguren als Metapher für den Plattformkonflikt zwischen Anthropic und Lovable
    April 14, 20263 min

    Anthropic baut einen App-Builder – und greift Europas Vibe-Coding-Star Lovable an

    Geleakte Screenshots zeigen einen integrierten App-Builder in Claude. Was das für Lovable, das europäische Startup-Ökosy…

    Read more
    Claude Mythos & Project Glasswing: Wenn KI zu gut hackt, wird sie zur Waffe der Verteidiger
    April 11, 20264 min

    Claude Mythos & Project Glasswing: Wenn KI zu gut hackt, wird sie zur Waffe der Verteidiger

    Anthropics neues Frontier-Modell Claude Mythos Preview ist so gut im Finden von Sicherheitslücken, dass es nicht öffentl…

    Read more
    Claude Mythos Preview: Benchmarks, Exploit-Ketten und die technischen Details
    April 11, 20266 min

    Claude Mythos Preview: Benchmarks, Exploit-Ketten und die technischen Details

    Claude Mythos Preview ist nicht inkrementell besser – es ist eine andere Kategorie. 93,9% auf SWE-bench, 100% auf Cybenc…

    Read more
    Projekt KNUT: 52 GB VRAM, null Cloud – lokale AI-Infrastruktur im Deep Dive
    April 10, 20264 min

    Projekt KNUT: 52 GB VRAM, null Cloud – lokale AI-Infrastruktur im Deep Dive

    Ein Mac Mini M4, zwei NVIDIA-GPUs, 52 GB VRAM – Projekt KNUT vereint heterogene Hardware zu einer lokalen AI-Infrastrukt…

    Read more
    Gemma 4 KI-Modell läuft auf kompaktem Mini-PC – Frontier-Intelligenz wird lokal
    April 6, 20264 min

    Gemma 4: Frontier-Intelligenz auf dem Laptop – der Hype ist real

    Googles Gemma 4 liefert GPT-4-Niveau in 14 GB. 85 Tokens pro Sekunde auf Consumer-Hardware, 256K Kontext, Function Calli…

    Read more