Terminal-Bench 2.1

Agentic terminal coding

Terminal-Bench evaluates models on real-world tasks in a terminal and command-line environment — installing dependencies, debugging, running builds and orchestrating tools — where each step depends on the result of the last.

Model scores

Fable 588.0%
Opus 4.882.7%
Sonnet 580.4%
GPT-5.6 Sol88.8% (max) / 91.9% (ultra)
GPT-5.583.4%
Composer 2.5—
Opus 4.766.1%
Gemini 3.1 Pro70.3%
Mythos Preview82.0%

Official source: Terminal-Bench (tbench.ai)

Model scores

Related reading