
Meta Muse Spark: Beeindruckend bei Health, schwach beim Coding – und ein strategisches Problem
TL;DR: „Muse Spark ist Metas bestes Modell aller Zeiten und kostenlos. Es führt bei Health-Benchmarks und wissenschaftlichem Reasoning, fällt aber beim Coding (59 vs. 75 GPT-5.4) und agentic Tasks dramatisch zurück. Der eigentliche Elefant im Raum: Das Modell ist closed-source – ein Bruch mit Metas Open-Source-DNA."
— Till FreitagDas Wichtigste in 30 Sekunden
Am 8. April 2026 hat Meta Muse Spark vorgestellt – das erste Modell der neuen Meta Superintelligence Labs (MSL) unter der Leitung von Alexandr Wang. Neun Monate Neuaufbau, neuer Stack, neue Architektur.
Die Headlines klingen beeindruckend: Top-5 im Artificial Analysis Intelligence Index, bestes Modell für medizinisches Reasoning, kostenlos für alle 3+ Milliarden Meta-Nutzer.
Aber wer genauer hinschaut, sieht ein differenzierteres Bild.
Was Muse Spark wirklich kann
Health & Medical AI: Klasse für sich
Hier hat Meta geliefert. 42.8 auf HealthBench Hard – besser als GPT-5.4 (40.1) und doppelt so gut wie Gemini 3.1 Pro (20.6). Über 1.000 Ärzte haben an den Trainingsdaten mitgearbeitet.
Das ist kein Zufall, sondern Strategie: Meta hat 3 Milliarden Nutzer auf WhatsApp, Instagram und Facebook. Ein AI-Assistent, der gesundheitliche Fragen zuverlässig beantworten kann, ist ein massiver Retention-Hebel.
Multimodale Vision: Stark, aber nicht die Nummer 1
80.5% auf MMMU-Pro (Gemini liegt bei 82.4%). Bei CharXiv Reasoning – also Chart- und Datenverständnis – führt Muse Spark mit 86.4 vor GPT-5.4 (82.8). Wer viel mit visuellen Daten arbeitet, findet hier ein starkes Tool.
Wissenschaftliches Reasoning: Der Contemplating-Modus
Muse Sparks Killer-Feature ist der Contemplating-Modus: Statt ein einzelnes Modell härter denken zu lassen, orchestriert es mehrere Agenten parallel. Das Ergebnis: 50.2% auf Humanity's Last Exam – besser als GPT-5.4 Pro (43.9%) und Gemini Deep Think (48.4%).
Wo Muse Spark versagt
Coding: Nicht mal ansatzweise konkurrenzfähig
Hier wird es unbequem. Terminal-Bench 2.0: 59.0 – während GPT-5.4 bei 75.1 liegt und Gemini bei 68.5. Das ist kein kleiner Rückstand, das ist eine andere Liga.
Für jeden, der AI zum Programmieren nutzt – und das sind immer mehr Entwickler und "Vibe Coder" – ist Muse Spark schlicht keine Option. Claude und GPT bleiben hier unangefochten.
Agentic Tasks: Nicht bereit für autonomes Arbeiten
GDPval-AA: 1.444 ELO vs. GPT-5.4 (1.674) und Claude Opus 4.6 (1.607). Wenn ein AI-Modell selbstständig mehrstufige Workflows abarbeiten soll – Spreadsheets ausfüllen, Websites navigieren, Dokumente verwalten – dann ist Muse Spark nicht zuverlässig genug.
Abstract Reasoning: Der größte blinde Fleck
ARC-AGI-2: 42.5 vs. GPT-5.4 (76.1) und Gemini (76.5). Das ist nicht knapp – das ist weniger als die Hälfte. Bei neuartigen Pattern-Recognition-Aufgaben, die echte Generalisierung erfordern, bricht Muse Spark ein.
Die Benchmark-Tabelle
| Benchmark | Muse Spark | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| AI Analysis Index | 52 | 57 | 53 | 57 |
| Humanity's Last Exam | 50.2% | 43.9% | — | 48.4% |
| HealthBench Hard | 42.8 | 40.1 | — | 20.6 |
| CharXiv Reasoning | 86.4 | 82.8 | — | 80.2 |
| MMMU-Pro (Vision) | 80.5% | — | — | 82.4% |
| Terminal-Bench (Coding) | 59.0 | 75.1 | — | 68.5 |
| ARC-AGI-2 | 42.5 | 76.1 | — | 76.5 |
| GDPval-AA (Agentic) | 1.444 | 1.674 | 1.607 | — |
| Preis | Kostenlos | Abo | Abo | Freemium |
Der Elefant im Raum: Closed Source
Und hier wird es strategisch interessant. Meta hat jahrelang die Open-Source-Flagge geschwenkt. Llama war das erklärte Gegenmodell zu OpenAIs und Googles Closed-Source-Ansatz. Zuckerberg hat Open Source als moralischen Imperativ positioniert.
Muse Spark ist closed-source.
Ja, Meta hat angekündigt, "in Zukunft" Open-Source-Weights zu veröffentlichen. Aber es gibt keinen Zeitplan. Und die Tatsache, dass das beste Modell des Unternehmens hinter einer geschlossenen API sitzt, sendet ein klares Signal: Wenn es um echte Frontier-Performance geht, priorisiert Meta Kontrolle über Offenheit.
Das ist keine Kritik an der Entscheidung per se – OpenAI und Anthropic machen das Gleiche. Aber es untergräbt das Narrativ, mit dem Meta sich jahrelang differenziert hat.
Was das für das AI-Rennen bedeutet
1. Meta spielt ein anderes Spiel
Während OpenAI den Consumer-Superapp baut und Anthropic das Developer-OS, fokussiert Meta auf Distribution. 3+ Milliarden Nutzer, die Muse Spark kostenlos über WhatsApp, Instagram und Facebook nutzen können – das ist ein Moat, den kein Startup replizieren kann.
2. Der Health-Fokus ist clever
Meta positioniert AI nicht als Produktivitäts-Tool, sondern als persönlichen Gesundheitsberater. Das klingt nach einem netten Feature, ist aber potenziell ein Paradigmenwechsel: Wenn Nutzer anfangen, ihre Gesundheitsfragen einem AI-Assistenten auf WhatsApp zu stellen statt Google, verschiebt sich ein Milliardenmarkt.
3. Coding bleibt Metas Achillesferse
Das ist das Dilemma: Die Developer-Community – die Multiplikatoren, die Ökosysteme bauen – braucht Coding-Fähigkeiten. Und genau dort ist Muse Spark am schwächsten. Solange Meta diese Lücke nicht schließt, bleibt Claude/GPT das Developer-Tool der Wahl.
Unsere Einschätzung
Muse Spark ist ein beeindruckendes erstes Modell der Meta Superintelligence Labs. Der Health-Fokus ist strategisch klug, der Contemplating-Modus technisch innovativ, und die kostenlose Verfügbarkeit setzt die Konkurrenz unter Druck.
Aber für professionelle Anwendungsfälle – Coding, Agent Workflows, abstrakte Problemlösung – ist Muse Spark Stand heute nicht konkurrenzfähig. Es ist ein Consumer-Modell mit Frontier-Ambitionen, kein Frontier-Modell mit Consumer-Reichweite.
Der größte Widerspruch bleibt die Closed-Source-Entscheidung. Meta muss sich entscheiden: Will man das Unternehmen sein, das AI demokratisiert – oder das Unternehmen, das 3 Milliarden Nutzer in ein geschlossenes AI-Ökosystem einschließt? Beides gleichzeitig funktioniert nicht langfristig.
Wir werden Muse Spark in den kommenden Wochen in unsere Tool-Vergleiche integrieren und die Entwicklung beobachten. Meta hat die Ressourcen, die Coding-Lücke zu schließen. Die Frage ist, ob sie es wollen – oder ob sie lieber der beste Health-AI-Anbieter der Welt werden möchten.
Quellen: Meta AI Blog, Artificial Analysis Intelligence Index v4.0, FelloAI Benchmark-Analyse








