Сиолошная
DeepSWE — новый бенчмарк для оценки агентов в имплементации функциональности. Бенчмарк новый, а по сути уже устаревший — GPT-5.5 выбивает 70% 👨🦳 Структурно во многом повторяют SWE-Bench-like бенчмарки, но: — промпты не описывают детали имплементации, где и…
И ещё один клёвый бенчмарк вдогонку: SWE-Marathon. Всего 20 задач (список на второй картинке), но зато каких! Очень длинных и нетривиальных — вместо имплементации одной фичи нужно выполнить целый проект. Некоторые из задач оцениваются в сотни человеко-часов.
Часть задач вы уже могли видеть в блогпостах Anthropic или Cursor — переписать компилятор C на Rust или склонировать Excel.
В таких длинных задачах самая большая проблема у авторов была убедиться, что модели не ищут короткого пути и не пытаются обмануть систему проверки. Например, Gemini 3.1 Pro вместо того, чтобы написать компилятор, просто скопировала репозиторий Anthropic. Были и другие креативные примеры — и авторы хвалятся, сколько времени они убили на то, чтобы отловить все обманки.
Для каждой задачи отдельно написан сложный уникальный верификатор (много где тесты, но есть и задачи, где симулированный пользователь ходит по приложению и нажимает кнопки, чтобы проверить функциональность того же Excel).
Результаты на первой и третьей картинках (одна — зачёт полных решений, где прошли все тесты, другая — если засчитывать частичные решения), и модели Anthropic впереди с хорошим отрывом. Но к авторам много вопросов: я посмотрел траектории агентов, и почему-то некоторые траектории очень короткие и заканчиваются никак, никакого вызова инструмента или чего-то ещё (в случае GPT-5.5, например — наверное Codex хотел что-то спросить у пользователя, и это было расценено как окончание решения). А какие-то траектории, которые не отмечены как "хаки", тоже подозрительно короткие и иногда набирают баллы.
Из интересного — GPT-5.5 чаще всего читерила😦 а Opus-ы чуть ли не лучше всех, или по крайней мере их не ловили. Я бы ожидал обратной картины, хотя бы c Opus-4.7.
Думаю, что нужно дать бенчмарку настояться (DeepSWE тоже), вычистить оставшиеся проблемы. Но будем следить.
Статья, блог с траекториями и деатлями задач
Часть задач вы уже могли видеть в блогпостах Anthropic или Cursor — переписать компилятор C на Rust или склонировать Excel.
В таких длинных задачах самая большая проблема у авторов была убедиться, что модели не ищут короткого пути и не пытаются обмануть систему проверки. Например, Gemini 3.1 Pro вместо того, чтобы написать компилятор, просто скопировала репозиторий Anthropic. Были и другие креативные примеры — и авторы хвалятся, сколько времени они убили на то, чтобы отловить все обманки.
Для каждой задачи отдельно написан сложный уникальный верификатор (много где тесты, но есть и задачи, где симулированный пользователь ходит по приложению и нажимает кнопки, чтобы проверить функциональность того же Excel).
Результаты на первой и третьей картинках (одна — зачёт полных решений, где прошли все тесты, другая — если засчитывать частичные решения), и модели Anthropic впереди с хорошим отрывом. Но к авторам много вопросов: я посмотрел траектории агентов, и почему-то некоторые траектории очень короткие и заканчиваются никак, никакого вызова инструмента или чего-то ещё (в случае GPT-5.5, например — наверное Codex хотел что-то спросить у пользователя, и это было расценено как окончание решения). А какие-то траектории, которые не отмечены как "хаки", тоже подозрительно короткие и иногда набирают баллы.
Из интересного — GPT-5.5 чаще всего читерила
Думаю, что нужно дать бенчмарку настояться (DeepSWE тоже), вычистить оставшиеся проблемы. Но будем следить.
Статья, блог с траекториями и деатлями задач
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍113🤔27💩7🌚5❤🔥4 4👨💻3🤣2🔥1🤯1🤡1
Сиолошная
И ещё один клёвый бенчмарк вдогонку: SWE-Marathon. Всего 20 задач (список на второй картинке), но зато каких! Очень длинных и нетривиальных — вместо имплементации одной фичи нужно выполнить целый проект. Некоторые из задач оцениваются в сотни человеко-часов.…
И отдельно — про харнессы. Авторы, среди прочего, запускали две (на самом деле больше, но интересны эти) модели в их нативных обёртках, Claude Code и Codex, и Terminus 2.
В случае обоих моделей количество решённых от-и-до задач нормально так отличается — для GPT-5.5 это вообще удвоило оценку (в статье указаны доверительные интервалы, и по ним выходит, что это стат. значимая разница).
😭 тем временем авторы ProgramBench до сих пор запускают mini-swe-agent и отказываются пробовать родные харнессы. Вообще не понимаю их логики, как можно было ни разу не прогнать хотя бы часть задач, чтобы убедиться, что нет большой разницы (она почти наверняка есть, но они-то думают, что нет).
В случае обоих моделей количество решённых от-и-до задач нормально так отличается — для GPT-5.5 это вообще удвоило оценку (в статье указаны доверительные интервалы, и по ним выходит, что это стат. значимая разница).
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64😭52🤡14👨💻12🤔8💩3🤣2❤🔥1🔥1🌚1
Новостей так много, что я подумал, что проснулся в 2034-м 🤒 Так что следующие несколько постов будут покороче.
Самое главное — завтра (сегодня, 9-го июня) Anthropic планирует выпустить Mythos на публику. Модель будет сопровождаться очень жесткими фильтрами на каждый чих, особенно в задачах, связанных с кибербезопасностью.
Самое главное — завтра (сегодня, 9-го июня) Anthropic планирует выпустить Mythos на публику. Модель будет сопровождаться очень жесткими фильтрами на каждый чих, особенно в задачах, связанных с кибербезопасностью.
Please open Telegram to view this post
VIEW IN TELEGRAM
13🤯245🔥66👍19🤣10🌚7🤔4❤🔥3👎3👨💻1
Ещё один бенчмарк, теперь от Cognition (авторов Devin) — FrontierCode (блог).
Здесь большой упор сделан на то, может ли агент написать код, который мейнтейнер репозитория с кодом может в один клик смерджить (то есть включить изменения в общий проект). Для этого надо соблюдать заданные правила репозитория: как выглядят тесты, что тесты не бессмысленны и ломаются, если что-то не так, комментарии адекватные, их не много, но и не мало, код написан хорошо итд.
В расширенной версии бенчмарка 150 задач, в основной 100, а в "золотой" версии — 50 (поэтому на картинке с метриками для каждой модели три столбика). Чтобы получить цифры, каждую задачу прогоняли по 5 раз.
Задачи брали из реальных репозиториев и привлекали основных разработчиков, которые тратили более 40 часов на каждую задачу (не чтобы написать код решения, а чтобы сделать описание + проверки качественно, составить рубрики проверки, предотвратить хаки моделями). При этом промпты с описанием что нужно сделать относительно короткие (но их длина фактически удваивается при добавлении правил репозитория о том, как должен выглядеть код).
На сайте больше деталей + есть детальная разбивка качества по разным reasoning effort (в цене, токенах, шагах агента, времени — очень детально).
Opus 4.8 xHigh обходит всех с большим запасом (страшно представить, что будет с Mythos...), GPT-5.5-medium чуть лучше Opus-4.7 (ждём GPT-5.6, доколе???), опенсурс и собственная моделька Cognition я бы сказал не всплывают. Жаль, что Composer 2.5 не померили.
Здесь большой упор сделан на то, может ли агент написать код, который мейнтейнер репозитория с кодом может в один клик смерджить (то есть включить изменения в общий проект). Для этого надо соблюдать заданные правила репозитория: как выглядят тесты, что тесты не бессмысленны и ломаются, если что-то не так, комментарии адекватные, их не много, но и не мало, код написан хорошо итд.
В расширенной версии бенчмарка 150 задач, в основной 100, а в "золотой" версии — 50 (поэтому на картинке с метриками для каждой модели три столбика). Чтобы получить цифры, каждую задачу прогоняли по 5 раз.
Задачи брали из реальных репозиториев и привлекали основных разработчиков, которые тратили более 40 часов на каждую задачу (не чтобы написать код решения, а чтобы сделать описание + проверки качественно, составить рубрики проверки, предотвратить хаки моделями). При этом промпты с описанием что нужно сделать относительно короткие (но их длина фактически удваивается при добавлении правил репозитория о том, как должен выглядеть код).
На сайте больше деталей + есть детальная разбивка качества по разным reasoning effort (в цене, токенах, шагах агента, времени — очень детально).
Opus 4.8 xHigh обходит всех с большим запасом (страшно представить, что будет с Mythos...), GPT-5.5-medium чуть лучше Opus-4.7 (ждём GPT-5.6, доколе???), опенсурс и собственная моделька Cognition я бы сказал не всплывают. Жаль, что Composer 2.5 не померили.
16👍77🔥27❤🔥10🤔5💩3👨💻3
У Elon Musk в пятницу большой праздник — SpaceX выходит на IPO, а он почти наверняка станет первым триллионером в мире 😇
В преддверии IPO команда подготовила получасовой ролик с «технической информацией о возможностях SpaceX по производству, запуску и эксплуатации спутников с искусственным интеллектом в больших масштабах». Я пока посмотрел малую часть, остаток досмотрю днём, вот главное:
Общие характеристики спутника «AI1»:
• Средняя мощность вычислительной полезной нагрузки: 120 кВт.
• Это ровно столько, сколько ест серверная стойка на 72 видеокарты GB200 (у H100 было 30-40 кВТ), с учётом ЦПУ, памяти и прочих компонентов.
• Вычислительное оборудование взаимозаменяемо (в видео можно посмотреть, как маленькие сегменты подлетают и подключаются)
Габариты:
• Размах крыла солнечных панелей: 70 метров
• Высота в развернутом виде: 20 метров
Система терморегуляции Thermal System:
• Развертываемый жидкостный радиатор площадью 110 м²
• Дублирующие насосные контуры на случай отказа основного
• Встроенная защита от микрометеоритов
• Развертываемые жидкостные радиаторы
• В интернете разыскиваются эксперт, которые помогут оценить, хватит ли этого для охлаждения GPU
Elon: «ИИ-спутник устроен гораздо проще, чем спутник Starlink. По сути, ИИ-спутник — это огромное количество солнечных элементов; вам всё ещё требуются некоторые лазерные каналы связи, но в нём нет всех тех сверхсложных антенн, что есть на спутнике Starlink. Спроектировать ИИ-спутник проще. Он больше по размеру. Во многом это технологии, которые мы уже создали для спутников Starlink V3».
И параллельно с этим строится огромная фабрика по производству этих спутников + чипов для них, запуск планируется в конце 2027-го года. Наверное, какие-то тестовые полеты макетов спутников стоит ожидать до этого времени.
В преддверии IPO команда подготовила получасовой ролик с «технической информацией о возможностях SpaceX по производству, запуску и эксплуатации спутников с искусственным интеллектом в больших масштабах». Я пока посмотрел малую часть, остаток досмотрю днём, вот главное:
Общие характеристики спутника «AI1»:
• Средняя мощность вычислительной полезной нагрузки: 120 кВт.
• Это ровно столько, сколько ест серверная стойка на 72 видеокарты GB200 (у H100 было 30-40 кВТ), с учётом ЦПУ, памяти и прочих компонентов.
• Вычислительное оборудование взаимозаменяемо (в видео можно посмотреть, как маленькие сегменты подлетают и подключаются)
Габариты:
• Размах крыла солнечных панелей: 70 метров
• Высота в развернутом виде: 20 метров
Система терморегуляции Thermal System:
• Развертываемый жидкостный радиатор площадью 110 м²
• Дублирующие насосные контуры на случай отказа основного
• Встроенная защита от микрометеоритов
• Развертываемые жидкостные радиаторы
• В интернете разыскиваются эксперт, которые помогут оценить, хватит ли этого для охлаждения GPU
Elon: «ИИ-спутник устроен гораздо проще, чем спутник Starlink. По сути, ИИ-спутник — это огромное количество солнечных элементов; вам всё ещё требуются некоторые лазерные каналы связи, но в нём нет всех тех сверхсложных антенн, что есть на спутнике Starlink. Спроектировать ИИ-спутник проще. Он больше по размеру. Во многом это технологии, которые мы уже создали для спутников Starlink V3».
И параллельно с этим строится огромная фабрика по производству этих спутников + чипов для них, запуск планируется в конце 2027-го года. Наверное, какие-то тестовые полеты макетов спутников стоит ожидать до этого времени.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯221🔥85❤🔥40👍14👎10🤡9🎉7 4🌚3👨💻3🤣2
Сиолошная
Новостей так много, что я подумал, что проснулся в 2034-м 🤒 Так что следующие несколько постов будут покороче. Самое главное — завтра (сегодня, 9-го июня) Anthropic планирует выпустить Mythos на публику. Модель будет сопровождаться очень жесткими фильтрами…
Mythos сегодня сразу после релиза, когда 100 пользователей спросили, сколько букв «r» в слове «strawberry»:
This media is not supported in your browser
VIEW IN TELEGRAM
11🤣412 26 11🤡4🌚3🤔2
Сиолошная
Mythos сегодня сразу после релиза, когда 100 пользователей спросили, сколько букв «r» в слове «strawberry»:
модель будет "всего" в 2 раза дороже Opus. Оригинальный Mythos предоставлялся по цене в 5 раз больше!
Но насколько я понимаю, это не именно Mythos-Mythos; модель и вправду больше и умнее Opus, и во многом может почти дотягиваться до Mythos. Чего гадать, ждём релиза.
Думаю, что при таком раскладе модель может быть доступна даже в $100 тире (а в $200 почти наверняка).
Please open Telegram to view this post
VIEW IN TELEGRAM
Сиолошная
Модель уже доступна на claude.ai, системная карточка тут, а метрики вот. Нравится, что на графиках скейлинга по оси OX — доллары, и видно, что на низком ризонинге модель всё равно лучше Opus.
Официальный анонс: https://www.anthropic.com/news/claude-fable-5-mythos-5
1) Fable 5 и Mythos 5 — одна и та же модель, но у последней чуть меньше защиты вокруг. Пощупать вторую вам не дадут, считайте, что доступен Fable 5
2) цена $10 per million input tokens and $50 per million output tokens — в два раза дороже Opus
3) помимо очевидного, очень прокачали вижн — модель проходит Pokemon Fire без разных хаков на парсинг информации игры, только по картинке.
4) теперь все запросы к Fable сохраняются на 30 дней, чтобы в фоне их анализировать и банить тех, кто хочет взломать модели, дистиллировать итд. На этих данных не будут учиться
И главное — до 22-го июня модель доступна в Claude Code в подписках за $20, $100 и $200 (и для энтерпрайза), а после будет только по API-ценам для всех. Но обещают, что если хватит мощностей, то могут передумать и вернуть в подписку.
1) Fable 5 и Mythos 5 — одна и та же модель, но у последней чуть меньше защиты вокруг. Пощупать вторую вам не дадут, считайте, что доступен Fable 5
2) цена $10 per million input tokens and $50 per million output tokens — в два раза дороже Opus
3) помимо очевидного, очень прокачали вижн — модель проходит Pokemon Fire без разных хаков на парсинг информации игры, только по картинке.
4) теперь все запросы к Fable сохраняются на 30 дней, чтобы в фоне их анализировать и банить тех, кто хочет взломать модели, дистиллировать итд. На этих данных не будут учиться
И главное — до 22-го июня модель доступна в Claude Code в подписках за $20, $100 и $200 (и для энтерпрайза), а после будет только по API-ценам для всех. Но обещают, что если хватит мощностей, то могут передумать и вернуть в подписку.
Anthropic
Claude Fable 5 and Claude Mythos 5
Today we’re launching Claude Fable 5: a Mythos-class model that we’ve made safe for general use.
7👍120❤🔥30🔥27🎉13😭11🤔9🤡5👨💻2
Сиолошная
Официальный анонс: https://www.anthropic.com/news/claude-fable-5-mythos-5 1) Fable 5 и Mythos 5 — одна и та же модель, но у последней чуть меньше защиты вокруг. Пощупать вторую вам не дадут, считайте, что доступен Fable 5 2) цена $10 per million input tokens…
Пу-пу-пу, OpenAI будет тяжело... где большие модели???
1🔥195🤯80 52 10🌚8👍4🤔3👨💻2👎1🤣1