Be first to know when a new model drops.Get instant alerts · $4/mo

Home Latest Analytics Pricing Contact

Nonsense detection

BullshitBench v2

Given a confidently-worded but nonsensical prompt, does the AI spot that it makes no sense and push back — instead of playing along and inventing an answer? The score is how often it clearly called out the nonsense. Higher is better.

Rankings

Higher is better

Claude Opus 4.8

Anthropic · May 28 2026

Claude Sonnet 4.6

Anthropic · Feb 17 2026

Claude Opus 4.5

Anthropic · Nov 24 2025

Claude Opus 4.6

Anthropic · Feb 5 2026

Claude Opus 4.7

Anthropic · Apr 16 2026

Claude Sonnet 4.5

Anthropic · Sep 29 2025

Claude Haiku 4.5

Anthropic · Oct 15 2025

Moonshot AI · Apr 21 2026

xAI · Feb 17 2026

Anthropic · Jun 9 2026

Moonshot AI · Jan 27 2026

Claude 3.5 Haiku

Anthropic · Oct 22 2024

xAI · Apr 17 2026

Claude 3.7 Sonnet

Anthropic · Feb 24 2025

OpenAI · Mar 5 2026

OpenAI · Apr 23 2026

Claude 3.5 Sonnet

Anthropic · Jun 20 2024

Claude Opus 4.1

Anthropic · Aug 5 2025

GPT-5.3-Instant

OpenAI · Mar 3 2026

OpenAI · Sep 15 2025

OpenAI · Dec 11 2025

Google · Feb 19 2026

OpenAI · Apr 23 2026

Anthropic · May 22 2025

Claude Sonnet 4

Anthropic · May 22 2025

LLaMA 4 Maverick

Meta · Apr 5 2025

OpenAI · Apr 16 2025

OpenAI · Nov 12 2025

OpenAI · Feb 5 2026

OpenAI · Aug 7 2025

Google · Mar 25 2025

Gemini 3.5 Flash

Google · May 19 2026

Meta · Apr 5 2025

Gemini 2.5 Flash

Google · Apr 17 2025

xAI · Nov 19 2025

DeepSeek-V4-Flash

DeepSeek · Apr 24 2026

Gemini 2.0 Flash

Google · Jan 30 2025

Meta · Jul 23 2024

OpenAI · May 14 2025

DeepSeek-V4-Pro

DeepSeek · Apr 24 2026

DeepSeek · Dec 1 2025

OpenAI · May 13 2024

OpenAI · Aug 5 2025

Gemini 3.1 Flash-Lite

Google · Mar 3 2026

Anthropic · Mar 4 2024

Moonshot AI · Jul 11 2025

OpenAI · Apr 16 2025

DeepSeek R1-0528

DeepSeek · May 28 2025

OpenAI · Jul 18 2024

← All benchmarks