Анализ производительности, качества и стоимости моделей Anthropic
Sonnet 5 почти догнал Opus 4.8 по возможностям на большей части задач — на HLE (57.4% vs 57.9%) и GDPval-AA v2 (1618 vs 1615) разница минимальна. Но на самых тяжёлых агентных задачах (SWE-bench Pro) разрыв остаётся заметным: 63.2% против 69.2% у Opus 4.8 — для длинных сложных агентных цепочек Opus пока сильнее.
Итог: Sonnet 5 — не «просто дешёвая версия» Opus 4.8, а модель, которая почти закрыла разрыв в возможностях, оставив ощутимую разницу только на самых требовательных задачах.