Claude 5-series: Сравнение бенчмарков

SWE-bench Pro (агентный кодинг, %)

GDPval-AA v2 (профессиональная работа, очки)

HLE с инструментами (Humanity's Last Exam, %)

CursorBench — независимый тест (%)

Цена за 1M токенов, $ (вход/выход)

Выводы

Sonnet 5 почти догнал Opus 4.8 по возможностям на большей части задач — на HLE (57.4% vs 57.9%) и GDPval-AA v2 (1618 vs 1615) разница минимальна. Но на самых тяжёлых агентных задачах (SWE-bench Pro) разрыв остаётся заметным: 63.2% против 69.2% у Opus 4.8 — для длинных сложных агентных цепочек Opus пока сильнее.

Для повседневного кодинга и агентных задач — Sonnet 5: почти то же качество, что у Opus 4.8, но дешевле примерно в 1.7 раза ($2-3/$10-15 против $5/$25 за 1M токенов).

Для самых сложных и долгих агентных цепочек — Opus 4.8 всё ещё держит планку выше (SWE-bench Pro 69.2% против 63.2%).

Для максимума возможностей без оглядки на цену — Fable 5: SWE-bench Pro 80.3%, GDPval-AA v2 1932 — отдельная лига сверху, но и стоит дороже всех ($10/$50 за 1M токенов).

Итог: Sonnet 5 — не «просто дешёвая версия» Opus 4.8, а модель, которая почти закрыла разрыв в возможностях, оставив ощутимую разницу только на самых требовательных задачах.