MMMLU

Multilingual Q&A

MMMLU is a massively-multilingual version of MMLU, measuring general knowledge and reasoning across dozens of languages — from high-resource languages to low-resource ones — to gauge how evenly a model performs worldwide.

Model scores

Fable 5—
Opus 4.8—
Sonnet 5—
GPT-5.6 Sol—
GPT-5.583.2%
Composer 2.5—
Opus 4.791.5%
Gemini 3.1 Pro92.6%
Mythos Preview—

Official source: MMMLU dataset (OpenAI)

Model scores

Related reading