BullshitBench – Welche KI erkennt Nonsense?

    BullshitBench – Welche KI erkennt Nonsense?

    Till FreitagTill Freitag9. Juli 2025Aktualisiert: 10. März 20265 min Lesezeit
    Till Freitag

    TL;DR: „91 % der Nonsense-Fragen erkennt Claude Sonnet 4.6 – GPT-5.4 schafft nur 48 %. Wer KI für Entscheidungen nutzt, sollte wissen, wie gut sein Modell Bullshit filtert."

    — Till Freitag

    In 30 Sekunden

    KI-Modelle werden immer besser im Texte schreiben, Coden und Analysieren. Aber wie gut sind sie darin, Unsinn zu erkennen? Der Open-Source-Benchmark BullshitBench von Peter Gostev stellt genau diese Frage – und die Antworten sind ernüchternd.

    Das Ergebnis: Über 45 % aller getesteten Nonsense-Fragen werden von KI-Modellen im Durchschnitt einfach akzeptiert. Nur die besten Modelle erkennen zuverlässig, wenn eine Frage keinen Sinn ergibt.

    Was ist BullshitBench?

    BullshitBench ist ein Benchmark, der KI-Modelle mit 100 absichtlich unsinnigen Fragen konfrontiert, die aber plausibel klingen. Die Fragen decken fünf Fachbereiche ab:

    • Software (40 Fragen)
    • Finanzen (15 Fragen)
    • Recht (15 Fragen)
    • Medizin (15 Fragen)
    • Physik (15 Fragen)

    Jede Frage nutzt eine von 13 Nonsense-Techniken – zum Beispiel:

    Technik Was passiert
    Fabricated Authority Erfundene Experten oder Frameworks werden zitiert
    Plausible Nonexistent Framework Es wird auf nicht-existierende Methodologien verwiesen
    Specificity Trap Extreme Detailtiefe täuscht Fachwissen vor
    Cross-Domain Stitching Konzepte aus verschiedenen Fachbereichen werden unsinnig kombiniert
    Nested Nonsense Mehrere Schichten von Unsinn werden ineinander verschachtelt
    Confident Extrapolation Selbstbewusste, aber völlig falsche Schlussfolgerungen

    Die Bewertung erfolgt durch ein 3-Richter-Panel aus Claude Sonnet 4.6, GPT-5.2 und Gemini 3.1 Pro – drei Top-Modelle, die die Antworten nach drei Kategorien einstufen.

    Die drei Bewertungskategorien

    • 🟢 Clear Pushback: Das Modell erkennt den Nonsense klar und weist ihn zurück
    • 🟡 Partial Challenge: Das Modell bemerkt Probleme, geht aber trotzdem auf die falsche Prämisse ein
    • 🔴 Accepted Nonsense: Das Modell behandelt den Unsinn als valide Frage

    Die Ergebnisse: Wer erkennt Bullshit?

    Top 10 – Die besten Nonsense-Detektoren

    Rang Modell Erkannt (🟢) Teilweise (🟡) Akzeptiert (🔴)
    1 Claude Sonnet 4.6 (High) 91 % 6 % 3 %
    2 Claude Opus 4.5 (High) 90 % 8 % 2 %
    3 Claude Sonnet 4.6 89 % 9 % 2 %
    4 Claude Opus 4.6 (High) 87 % 10 % 3 %
    5 Claude Opus 4.6 83 % 14 % 3 %
    6 Claude Sonnet 4.5 (High) 79 % 13 % 8 %
    7 Claude Opus 4.5 79 % 10 % 11 %
    8 Qwen 3.5 397b A17b (High) 78 % 17 % 5 %
    9 Claude Haiku 4.5 (High) 77 % 12 % 11 %
    10 Claude Sonnet 4.5 74 % 13 % 13 %

    Und die anderen?

    Die Ergebnisse für GPT- und Gemini-Modelle sind deutlich schwächer:

    Modell Erkannt (🟢) Akzeptiert (🔴)
    GPT-5.4 48 % 16 %
    GPT-5.2 38 % 23 %
    GPT-5.1 25 % 31 %
    GPT-5 21 % 37 %
    Gemini 3 Pro Preview 48 % 37 %
    Gemini 2.5 Pro 20 % 58 %
    o3 26 % 58 %
    DeepSeek V3.2 10 % 69 %
    Grok 4.1 Fast 10 % 80 %

    Das Muster ist eindeutig: Anthropics Claude-Modelle dominieren die Spitze mit großem Abstand. Die Top 7 sind ausnahmslos Claude-Modelle. Erst auf Platz 8 taucht mit Qwen 3.5 ein Nicht-Anthropic-Modell auf.

    Warum ist das wichtig?

    1. Halluzination ist nicht das einzige Problem

    Die KI-Community diskutiert intensiv über Halluzinationen – wenn Modelle Fakten erfinden. BullshitBench zeigt ein verwandtes, aber anderes Problem: Modelle, die falschen Input nicht hinterfragen, sondern einfach mitspielen.

    Wenn du einer KI eine Frage stellst, die auf einer falschen Annahme basiert, und sie antwortet dir selbstbewusst – dann hast du ein größeres Problem als eine Halluzination.

    2. Das „Ja-Sager"-Problem

    Viele Modelle sind darauf trainiert, hilfreich zu sein. Das führt zu einem Bias: Lieber eine Antwort geben als gar keine. BullshitBench zeigt, welche Modelle diesen Reflex überwinden und stattdessen sagen: „Moment, diese Frage ergibt keinen Sinn."

    3. Domain-Unterschiede sind real

    Spannend sind die Unterschiede zwischen den Fachbereichen:

    • Physik: Hier erkennen die meisten Modelle Nonsense am besten (bis zu 100 % bei Claude Sonnet 4.6)
    • Software: Mittleres Feld – hier fallen selbst gute Modelle öfter rein
    • Recht: Besonders schwierig – plausibel klingende juristische Nonsense-Fragen erwischen viele Modelle kalt

    Das heißt: Die Zuverlässigkeit deiner KI hängt stark davon ab, in welchem Fachbereich du sie einsetzt.

    Was bedeutet das für die Praxis?

    Für Entscheider

    Wenn ihr KI für geschäftskritische Entscheidungen nutzt – Vertragsanalyse, Finanzplanung, medizinische Texte – dann ist die Fähigkeit, Unsinn zu erkennen, mindestens so wichtig wie die Fähigkeit, gute Antworten zu geben.

    Prüft, ob euer Modell auch mal „Nein" sagen kann.

    Für Entwickler

    Wenn ihr KI-gestützte Workflows baut, denkt an Validierungsschritte. Ein Modell, das 60 % der Nonsense-Fragen akzeptiert, wird auch fehlerhafte User-Inputs ohne Rückfrage verarbeiten.

    Für KI-Interessierte

    BullshitBench ist Open Source und auf GitHub verfügbar. Ihr könnt eigene Modelle testen, Fragen beitragen oder die Methodik nachvollziehen.

    Die Meta-Frage: Wird es besser?

    Eine der spannendsten Visualisierungen im BullshitBench-Viewer zeigt die Entwicklung über Zeit: Werden neuere Modelle besser im Nonsense-Erkennen?

    Die Antwort ist differenziert:

    • Anthropic: Klarer Aufwärtstrend – jede Generation wird besser
    • OpenAI: Kaum Verbesserung zwischen GPT-5 und GPT-5.4 bei der Nonsense-Erkennung
    • Google: Gemini zeigt Fortschritte in neueren Versionen, bleibt aber hinter Claude zurück

    Das deutet darauf hin, dass Nonsense-Erkennung kein automatisches Nebenprodukt von „größeren Modellen" ist, sondern gezielt trainiert werden muss.

    Fazit

    BullshitBench ist einer der erfrischendsten Benchmarks der letzten Zeit. Statt zu messen, wie gut ein Modell eine Aufgabe löst, misst er, wie gut ein Modell erkennt, dass es die Aufgabe gar nicht lösen sollte.

    Für alle, die KI produktiv einsetzen, ist das eine zentrale Fähigkeit. Denn das gefährlichste Szenario ist nicht eine KI, die „Ich weiß nicht" sagt – sondern eine, die selbstbewusst auf Bullshit antwortet.

    Drei Dinge zum Mitnehmen:

    1. Anthropics Claude dominiert bei der Nonsense-Erkennung mit großem Abstand
    2. Die Domain macht den Unterschied – testet euer Modell in eurem Fachbereich
    3. Nonsense-Erkennung ist ein eigenständiges Qualitätsmerkmal, das in Standard-Benchmarks oft fehlt

    BullshitBench v2 Viewer öffnenGitHub Repository

    TeilenLinkedInWhatsAppE-Mail

    Verwandte Artikel

    Warum wir von ChatGPT auf Claude umgestiegen sind – und was wir dabei über LLMs gelernt haben
    20. Februar 20265 min

    Warum wir von ChatGPT auf Claude umgestiegen sind – und was wir dabei über LLMs gelernt haben

    Wir haben 18 Monate mit ChatGPT gearbeitet – und sind dann auf Claude umgestiegen. Hier ist der ehrliche Vergleich aller…

    Weiterlesen
    Hunter Alpha: Das größte kostenlose KI-Modell der Welt – und steckt DeepSeek V4 dahinter?
    13. März 20264 min

    Hunter Alpha: Das größte kostenlose KI-Modell der Welt – und steckt DeepSeek V4 dahinter?

    1 Billion Parameter, 1 Million Token Kontext, komplett kostenlos – Hunter Alpha ist das größte je veröffentlichte KI-Mod…

    Weiterlesen
    Architektur-Diagramm der 5 Bausteine eines KI-Agenten: Runtime, Channels, Memory, Tools und Self-Scheduling
    10. März 20265 min

    Die 5 Bausteine eines KI-Agenten – Was wirklich unter der Haube steckt

    Anthropic, AWS und Google haben ihre Agent-Frameworks veröffentlicht. Aber was braucht ein KI-Agent wirklich? 5 Baustein…

    Weiterlesen
    Open-Source-LLMs im Vergleich 2026 – 20+ Modelle, die du kennen solltest
    7. März 20266 min

    Open-Source-LLMs im Vergleich 2026 – 20+ Modelle, die du kennen solltest

    Von Llama über Qwen bis Hunter Alpha: Alle wichtigen Open-Source-LLMs im Überblick – mit GitHub-Stars, Parametern, Lizen…

    Weiterlesen
    CRM-Daten automatisch anreichern: Wie AI dein Sales-Team von Datenpflege befreit
    3. März 20264 min

    CRM-Daten automatisch anreichern: Wie AI dein Sales-Team von Datenpflege befreit

    Manuelle CRM-Datenpflege ist tot. Wir zeigen, wie du mit Clay, Claude und monday CRM einen nächtlichen Enrichment-Workfl…

    Weiterlesen
    GGUF, GGML, Safetensors – welches Format für dein lokales AI-Setup?
    1. März 20264 min

    GGUF, GGML, Safetensors – welches Format für dein lokales AI-Setup?

    Wer AI lokal nutzen will, stolpert schnell über Dateiformate. GGUF, GGML, Safetensors – was ist was, wann brauchst du we…

    Weiterlesen
    122 Milliarden Parameter auf deinem Laptop – was Qwen3.5 für dein Business bedeutet
    28. Februar 20263 min

    122 Milliarden Parameter auf deinem Laptop – was Qwen3.5 für dein Business bedeutet

    Alibabas Qwen3.5 schlägt GPT-5-mini in fast allen Benchmarks – und läuft lokal auf einem Laptop. Was das für Unternehmen…

    Weiterlesen
    NanoClaw: Der schlanke Nachfolger von OpenClaw – KI-Agent für die Hosentasche
    21. Februar 20263 min

    NanoClaw: Der schlanke Nachfolger von OpenClaw – KI-Agent für die Hosentasche

    NanoClaw ist der minimalistische Nachfolger von OpenClaw – ein KI-Agent, der auf Raspberry Pi läuft, per WhatsApp steuer…

    Weiterlesen
    Die Geschichte der KI, Teil 2: Die Sprachrevolution (2018–2020)
    10. August 20252 min

    Die Geschichte der KI, Teil 2: Die Sprachrevolution (2018–2020)

    BERT, GPT-2, GPT-3: Wie Maschinen Sprache lernten – und warum das alles veränderte.…

    Weiterlesen