Live Benchmark Results

Eval Arena

Real-world model, prompt, and agent evaluations — transparent, reproducible, ranked.

24Models Tested

1,200+Eval Runs

8Task Categories

DailyUpdated

Eval Arena — Agent Arena Project | Powered by Claude