Meta Muse Spark: Beeindruckend bei Health, schwach beim Coding – und ein strategisches Problem

13. April 20264 min read

TL;DR: „Muse Spark ist Metas bestes Modell aller Zeiten und kostenlos. Es führt bei Health-Benchmarks und wissenschaftlichem Reasoning, fällt aber beim Coding (59 vs. 75 GPT-5.4) und agentic Tasks dramatisch zurück. Der eigentliche Elefant im Raum: Das Modell ist closed-source – ein Bruch mit Metas Open-Source-DNA."

— Till Freitag

Das Wichtigste in 30 Sekunden

Am 8. April 2026 hat Meta Muse Spark vorgestellt – das erste Modell der neuen Meta Superintelligence Labs (MSL) unter der Leitung von Alexandr Wang. Neun Monate Neuaufbau, neuer Stack, neue Architektur.

Die Headlines klingen beeindruckend: Top-5 im Artificial Analysis Intelligence Index, bestes Modell für medizinisches Reasoning, kostenlos für alle 3+ Milliarden Meta-Nutzer.

Aber wer genauer hinschaut, sieht ein differenzierteres Bild.

Was Muse Spark wirklich kann

Health & Medical AI: Klasse für sich

Hier hat Meta geliefert. 42.8 auf HealthBench Hard – besser als GPT-5.4 (40.1) und doppelt so gut wie Gemini 3.1 Pro (20.6). Über 1.000 Ärzte haben an den Trainingsdaten mitgearbeitet.

Das ist kein Zufall, sondern Strategie: Meta hat 3 Milliarden Nutzer auf WhatsApp, Instagram und Facebook. Ein AI-Assistent, der gesundheitliche Fragen zuverlässig beantworten kann, ist ein massiver Retention-Hebel.

Multimodale Vision: Stark, aber nicht die Nummer 1

80.5% auf MMMU-Pro (Gemini liegt bei 82.4%). Bei CharXiv Reasoning – also Chart- und Datenverständnis – führt Muse Spark mit 86.4 vor GPT-5.4 (82.8). Wer viel mit visuellen Daten arbeitet, findet hier ein starkes Tool.

Wissenschaftliches Reasoning: Der Contemplating-Modus

Muse Sparks Killer-Feature ist der Contemplating-Modus: Statt ein einzelnes Modell härter denken zu lassen, orchestriert es mehrere Agenten parallel. Das Ergebnis: 50.2% auf Humanity's Last Exam – besser als GPT-5.4 Pro (43.9%) und Gemini Deep Think (48.4%).

Wo Muse Spark versagt

Coding: Nicht mal ansatzweise konkurrenzfähig

Hier wird es unbequem. Terminal-Bench 2.0: 59.0 – während GPT-5.4 bei 75.1 liegt und Gemini bei 68.5. Das ist kein kleiner Rückstand, das ist eine andere Liga.

Für jeden, der AI zum Programmieren nutzt – und das sind immer mehr Entwickler und "Vibe Coder" – ist Muse Spark schlicht keine Option. Claude und GPT bleiben hier unangefochten.

Agentic Tasks: Nicht bereit für autonomes Arbeiten

GDPval-AA: 1.444 ELO vs. GPT-5.4 (1.674) und Claude Opus 4.6 (1.607). Wenn ein AI-Modell selbstständig mehrstufige Workflows abarbeiten soll – Spreadsheets ausfüllen, Websites navigieren, Dokumente verwalten – dann ist Muse Spark nicht zuverlässig genug.

Abstract Reasoning: Der größte blinde Fleck

ARC-AGI-2: 42.5 vs. GPT-5.4 (76.1) und Gemini (76.5). Das ist nicht knapp – das ist weniger als die Hälfte. Bei neuartigen Pattern-Recognition-Aufgaben, die echte Generalisierung erfordern, bricht Muse Spark ein.

Die Benchmark-Tabelle

Benchmark	Muse Spark	GPT-5.4	Claude Opus 4.6	Gemini 3.1 Pro
AI Analysis Index	52	57	53	57
Humanity's Last Exam	50.2%	43.9%	—	48.4%
HealthBench Hard	42.8	40.1	—	20.6
CharXiv Reasoning	86.4	82.8	—	80.2
MMMU-Pro (Vision)	80.5%	—	—	82.4%
Terminal-Bench (Coding)	59.0	75.1	—	68.5
ARC-AGI-2	42.5	76.1	—	76.5
GDPval-AA (Agentic)	1.444	1.674	1.607	—
Preis	Kostenlos	Abo	Abo	Freemium

Der Elefant im Raum: Closed Source

Und hier wird es strategisch interessant. Meta hat jahrelang die Open-Source-Flagge geschwenkt. Llama war das erklärte Gegenmodell zu OpenAIs und Googles Closed-Source-Ansatz. Zuckerberg hat Open Source als moralischen Imperativ positioniert.

Muse Spark ist closed-source.

Ja, Meta hat angekündigt, "in Zukunft" Open-Source-Weights zu veröffentlichen. Aber es gibt keinen Zeitplan. Und die Tatsache, dass das beste Modell des Unternehmens hinter einer geschlossenen API sitzt, sendet ein klares Signal: Wenn es um echte Frontier-Performance geht, priorisiert Meta Kontrolle über Offenheit.

Das ist keine Kritik an der Entscheidung per se – OpenAI und Anthropic machen das Gleiche. Aber es untergräbt das Narrativ, mit dem Meta sich jahrelang differenziert hat.

Was das für das AI-Rennen bedeutet

1. Meta spielt ein anderes Spiel

Während OpenAI den Consumer-Superapp baut und Anthropic das Developer-OS, fokussiert Meta auf Distribution. 3+ Milliarden Nutzer, die Muse Spark kostenlos über WhatsApp, Instagram und Facebook nutzen können – das ist ein Moat, den kein Startup replizieren kann.

2. Der Health-Fokus ist clever

Meta positioniert AI nicht als Produktivitäts-Tool, sondern als persönlichen Gesundheitsberater. Das klingt nach einem netten Feature, ist aber potenziell ein Paradigmenwechsel: Wenn Nutzer anfangen, ihre Gesundheitsfragen einem AI-Assistenten auf WhatsApp zu stellen statt Google, verschiebt sich ein Milliardenmarkt.

3. Coding bleibt Metas Achillesferse

Das ist das Dilemma: Die Developer-Community – die Multiplikatoren, die Ökosysteme bauen – braucht Coding-Fähigkeiten. Und genau dort ist Muse Spark am schwächsten. Solange Meta diese Lücke nicht schließt, bleibt Claude/GPT das Developer-Tool der Wahl.

Unsere Einschätzung

Muse Spark ist ein beeindruckendes erstes Modell der Meta Superintelligence Labs. Der Health-Fokus ist strategisch klug, der Contemplating-Modus technisch innovativ, und die kostenlose Verfügbarkeit setzt die Konkurrenz unter Druck.

Aber für professionelle Anwendungsfälle – Coding, Agent Workflows, abstrakte Problemlösung – ist Muse Spark Stand heute nicht konkurrenzfähig. Es ist ein Consumer-Modell mit Frontier-Ambitionen, kein Frontier-Modell mit Consumer-Reichweite.

Der größte Widerspruch bleibt die Closed-Source-Entscheidung. Meta muss sich entscheiden: Will man das Unternehmen sein, das AI demokratisiert – oder das Unternehmen, das 3 Milliarden Nutzer in ein geschlossenes AI-Ökosystem einschließt? Beides gleichzeitig funktioniert nicht langfristig.

Wir werden Muse Spark in den kommenden Wochen in unsere Tool-Vergleiche integrieren und die Entwicklung beobachten. Meta hat die Ressourcen, die Coding-Lücke zu schließen. Die Frage ist, ob sie es wollen – oder ob sie lieber der beste Health-AI-Anbieter der Welt werden möchten.

Quellen: Meta AI Blog, Artificial Analysis Intelligence Index v4.0, FelloAI Benchmark-Analyse

TeilenLinkedIn WhatsApp E-Mail

Geopolitische KI-Landschaft zwischen westlicher und östlicher Technologie

Deep Dive

April 13, 20268 min

Chinas KI-Offensive: Von Hunter Alpha bis DeepSeek V4 auf Huawei-Chips

Ein anonymes 1T-Modell, eine Verwechslung mit DeepSeek, und die Enthüllung, dass Xiaomi dahintersteckt. Gleichzeitig ste…

April 11, 20263 min

Das AI-Rennen in 41 Meilensteinen: Die komplette OpenAI vs. Anthropic Timeline

Von GPT-4o bis Project Glasswing: Jede Akquisition, jeder Modell-Launch, jedes Produktrelease von OpenAI und Anthropic a…

April 11, 20266 min

Googles $185-Milliarden-Wette: Wie Gemini 3.1 Pro, Vertex AI und die größte Infrastruktur-Offensive der Tech-Geschichte das AI-Rennen verändern

Alphabet investiert bis zu $185 Milliarden in AI-Infrastruktur – mehr als das BIP von 140 Ländern. Gemini 3.1 Pro verdop…

$OpenAI kauft einen \"Fernsehsender\". Anthropic baut die Zukunft der Software-Entwicklung. Und Google? Spielt ein ganz anderes Spiel.$

April 11, 20265 min

OpenAI kauft einen \"Fernsehsender\". Anthropic baut die Zukunft der Software-Entwicklung. Und Google? Spielt ein ganz anderes Spiel.

OpenAI kauft TBPN, ein Jony-Ive-Hardware-Startup und baut einen Desktop-Superapp. Anthropic macht Claude zum Developer-O…

Von GPT Engineer bis heute: Die komplette Lovable-Reise in 6 Thesen

Deep Dive

May 27, 20268 min

Von GPT Engineer bis heute: Die komplette Lovable-Reise in 6 Thesen

Vom GPT-Engineer-Repo im Juni 2023 über den Lovable-Launch Ende 2024 bis zu Beyond Apps, Skills, Mobile, Vent Tool, Goog…

May 27, 20264 min

Lovable Subagents: Parallele Recherche, ein orchestrierender Head-Agent

Lovable führt Subagents ein: Read-only-Helfer, die parallel Codebase und Web durchsuchen, jeder mit eigenem Context-Wind…

May 23, 20262 min

Lovables Vent Tool: Wenn der Agent selbst Bugs meldet

Lovable hat dem Agenten ein Ventil gegeben: er postet seinen Frust direkt nach Slack. Ein zweiter Agent prüft, ob daraus…

Abstrakte Visualisierung der AI Transformation: chaotische Datenstrukturen werden über glühende neuronale Pfade in geordnete Architektur überführt

May 10, 20265 min

AI Transformation: Roadmap, Change Management & Implementierungsphasen für Unternehmen

AI Transformation ist mehr als ChatGPT-Lizenzen verteilen. Eine ehrliche Roadmap mit fünf Phasen, Change-Management-Prin…

GPT-5.5 Benchmark-Visualisierung mit steigendem Balkendiagramm in Blau und Cyan

April 25, 20262 min

GPT-5.5 in Lovable: Was die ersten Benchmarks über das neue Modell verraten

Lovable hat GPT-5.5 im Early Access getestet. Die Evals zeigen: Es ist das stärkste Modell für komplexe, festgefahrene B…