Kurz gesagt
- Metas neuer Muse Spark markiert einen Wechsel zu geschlossener, nativ multimodaler KI mit agentenbasiertem Denken.
- Meta meldet starke Benchmark-Zuwächse bei Gesundheit und Suche, liegt aber bei grundlegendem Denken und Programmierung immer noch hinter Gemini.
- In neun Monaten mit viel weniger Rechenleistung entwickelt, deutet dies auf eine neue effizienzgesteuerte KI-Strategie hin.
Meta hat am Mittwoch Muse Spark vorgestellt, das erste Modell von Meta Superintelligence Labs – dem Team, das vor neun Monaten unter Chief AI Officer Alexandr Wang nach Metas 14 Milliarden Dollar Scale AI-Übernahme zusammengestellt wurde. Es ist jetzt auf meta.ai und in der Meta AI App verfügbar, mit einer Einführung auf Facebook, Instagram und WhatsApp in den nächsten Wochen.
Dies ist nicht nur ein weiteres Chatbot-Upgrade oder eine neue Version von Llama. Muse Spark ist nativ multimodal – es verarbeitet Bilder, Text und Sprache von Grund auf, anstatt Vision auf ein bestehendes Textmodell aufzusetzen. Es verfügt über visuelle Gedankenketten, Tool-Nutzungsunterstützung und etwas, das Meta „Contemplating mode" nennt: eine Konfiguration, die mehrere AI Agents parallel ausführt, um schwierigere Probleme anzugehen. Das ist Metas Antwort auf die erweiterten Denkmodi von Googles Gemini Deep Think und OpenAIs GPT Pro.
„Muse Spark ist der erste Schritt auf unserer Skalierungsleiter und das erste Produkt einer grundlegenden Überholung unserer KI-Bemühungen", schrieb Meta in einer offiziellen Ankündigung. „Um weitere Skalierung zu unterstützen, tätigen wir strategische Investitionen über den gesamten Stack hinweg – von Forschung und Modelltraining bis zur Infrastruktur, einschließlich des Hyperion-Rechenzentrums."
Das Unternehmen arbeitete mit mehr als 1.000 Ärzten zusammen, um Trainingsdaten für Muse Sparks medizinisches Denken zu kuratieren. Die Ergebnisse auf HealthBench Hard – einem Benchmark für offene Gesundheitsanfragen – sind beeindruckend: Muse Spark erzielte 42,8 Punkte, verglichen mit 40,1 für GPT 5.4 und nur 20,6 für Gemini 3.1 Pro. Das ist kein marginaler Unterschied.
Bei der agentenbasierten Suche (DeepSearchQA) führt Muse Spark ebenfalls mit 74,8 und schlägt Gemini (69,7) und GPT 5.4 (73,6). Bei CharXiv Reasoning – Figurenverständnis aus wissenschaftlichen Arbeiten – erzielte es 86,4, den höchsten Wert unter den verglichenen Modellen.
Für diejenigen, die sich für das Jailbreaking von KI interessieren, wurde das Modell innerhalb von Minuten geknackt:
Aber gut ist nicht dasselbe wie großartig. Das Gesamtbild der Benchmarks zeigt, dass Gemini 3.1 Pro in den meisten Kategorien immer noch voraus ist. Die Lücke ist am deutlichsten bei ARC AGI 2, dem abstrakten Reasoning-Puzzle-Benchmark: Gemini erzielte 76,5 gegenüber Muse Sparks 42,5.
Beim Programmieren (LiveCodeBench Pro) übertrifft Geminis 82,9 Metas 80,0. Bei MMMU Pro – multimodalem Verständnis – erzielte Gemini 83,9 gegenüber 80,4. Metas eigener Blog erkennt aktuelle Leistungslücken bei langfristigen Agentensystemen und Programmier-Workflows an.
Es gibt auch eine bemerkenswerte strategische Verschiebung, die in diese Einführung eingebaut ist. Muse Spark ist ein geschlossenes Modell – seine Architektur und Gewichtungen werden nicht veröffentlicht. Das ist eine deutliche Abkehr von Llama, das Metas Ruf in offenen KI-Kreisen aufgebaut hat. Nach Llama 4s enttäuschender Aufnahme Anfang dieses Jahres scheint Meta entschieden zu haben, dass das nächste Kapitel anders geschrieben werden muss.
Das Unternehmen sagt, es hoffe, zukünftige Versionen von Muse als Open Source zu veröffentlichen, aber vorerst bleibt der Code bei Meta. Die Aktie des Tech-Riesen stieg am Mittwoch nach der Ankündigung um fast 9 % und beendete den Handelstag mit einem Plus von 6,5 % bei einem Preis von 612,42 $.
Der „Contemplating mode" verwendet parallele Agentenorchestrierung, um die Obergrenze des Modells höher zu treiben. In dieser Konfiguration erreichte Muse Spark 58 % bei Humanity's Last Exam und 38 % bei FrontierScience Research – ein Bereich, der es mit den leistungsfähigsten Versionen von Gemini und GPT konkurrenzfähig macht, statt mit deren Standardversionen.
Meta führt auch einen Shopping-Assistenten ein, der Produkte vergleicht und direkt mit Käufen verknüpft, und plant, Muse Spark in den kommenden Wochen auf Facebook, Instagram und WhatsApp zu bringen – nach dem gleichen Skript, das seit Llama 3 implementiert wurde und es vor mehr als 3,5 Milliarden Nutzern bringt. Eine private API-Vorschau wird für ausgewählte Entwickler geöffnet.
Das Modell wurde in neun Monaten entwickelt, intern mit dem Codenamen Avocado, wobei Meta behauptet, dass sein neuer Pretraining-Stack das gleiche Leistungsniveau wie Llama 4 Maverick mit über 10-mal weniger Rechenleistung erreichen kann.
Muse Spark wird intern als „kleiner und schneller" erster Schritt in der Muse-Familie beschrieben. Eine leistungsfähigere Version ist bereits in Entwicklung.
Daily Debrief Newsletter
Beginnen Sie jeden Tag mit den wichtigsten Nachrichten von heute sowie Originalfeatures, einem Podcast, Videos und mehr.
Quelle: https://decrypt.co/363691/meta-muse-spark-most-capable-ai-gemini-pro-still-leads








