Как ProgramBench помогает понять, куда движется индустрия через год-полтора.
В комментариях под постом про бенчмарк получилось обсуждение, приведу пару цитат (spec / спек — спецификация продукта, описание, как и что он делает, в деталях):
— Eсли бы еще у продуктов из репозиториев на гитхабе были бы исчерпывающие спеки…
— Собственно кажется бинарники для того и присобачили чтобы был хоть какой-то истинный ответ, потому что никакая документация обычно таковой не является
— Где ты видел документацию хоть сколько-нибудь актуальную и исчерпывающую? Я вот по жизни обратных кейсов встречал до жопы.
— Даже если разработка основана на spec, надо очень постараться чтобы сама дока была консистентной и согласованной
Я согласен с этими тезисами, хорошей всеобъемлющей документации фичей ПО действительно почти всегда не бывает. Но это не означает, что так должно быть в будущем — если ИИ агенты продолжат развиваться и проникать во всё большее количество компаний/команд разработки, то это вполне может повлиять на то, как эта разработка ведётся. Инструмент новый и с потенциалом изменить подход в корне.
Уже сейчас есть программисты, которые перешли на spec driven development (см. философию OpenSpec) — они сначала описывают детально функциональность, которую хотят поручить разработать агенту, итерируются несколько раз, оформляют список «ДАНО — КОГДА — ПОТОМ — И...» и запускают имплементацию. То есть разработчик участвует в принятии решений по логике, продумывает валидируемые детали.
Я вижу огромный потенциал для масштабирования подхода ProgramBench с двух сторон:
— решение LLM-агентом задач и получение обратной связи на то, что и где сработало, что нет. Это будет прокачивать долгосрочное планирование и архитектуру у агентов, ведь нужно как-то вываливать десять тысяч строк кода и больше. Всё в контекст не влезет, модели нужно будет учиться использовать внешнюю память.
— автоматическое создание спецификаций, даже при отсутствии исходного кода и бинарника для запуска. Тысячи детальных авто-сгенерированных спек. LLM-агенты могут продумывать пользовательский путь, декомпозировать фичи, проводить анализ схожей функциональности у ближайших конкурентов или аналогов. Пока что это будет на костылях, нужно какой-то системный подход продумать, уверен, над этим в компаниях работают.
И если первое понятно как использовать при наличии спеки, то что по второму? А то же самое — если эта система обучается из какой-то обратной связи, то я вижу, как можно генерировать большую часть спек автоматически. Агент просто задаст несколько верхнеуровневых вопросов и сам уйдет декомпозировать.
И получается, что открывается целая новая область окружений для тренировки агентов (как это было с имплементацией PR с GitHub в последние пару лет). Пойдут ли туда компании? Мне понятно, почему это желанно с экономической точки зрения. Dario Amodei на недавнем подкасте у Dwarksh говорил, что через сколько то месяцев-лет они закроют цикл Software Engineering, и уточнил, что речь и про архитектуру/планирование, а не только написание кода. Для меня описанный выше сценарий масштабирования тренировки выглядит сонаправленным с этим — модель и будет учиться продуктово мыслить, прорабатывать сценарии и тесты для них, и имплементировать спеку.
Как после SWE-Bench оказалось, что модели теперь будут работать на уровне PR, так и тут может оказаться, что новый способ разработки будет «по часовому голосовому сообщению с описанием того что я хочу агенты пошли написали 100 страниц спек и начали их имплементировать. За выходные справились» — и спеки, как понятно, будут инструментом агентов, а не людей.
В комментариях под постом про бенчмарк получилось обсуждение, приведу пару цитат (spec / спек — спецификация продукта, описание, как и что он делает, в деталях):
— Eсли бы еще у продуктов из репозиториев на гитхабе были бы исчерпывающие спеки…
— Собственно кажется бинарники для того и присобачили чтобы был хоть какой-то истинный ответ, потому что никакая документация обычно таковой не является
— Где ты видел документацию хоть сколько-нибудь актуальную и исчерпывающую? Я вот по жизни обратных кейсов встречал до жопы.
— Даже если разработка основана на spec, надо очень постараться чтобы сама дока была консистентной и согласованной
Я согласен с этими тезисами, хорошей всеобъемлющей документации фичей ПО действительно почти всегда не бывает. Но это не означает, что так должно быть в будущем — если ИИ агенты продолжат развиваться и проникать во всё большее количество компаний/команд разработки, то это вполне может повлиять на то, как эта разработка ведётся. Инструмент новый и с потенциалом изменить подход в корне.
Уже сейчас есть программисты, которые перешли на spec driven development (см. философию OpenSpec) — они сначала описывают детально функциональность, которую хотят поручить разработать агенту, итерируются несколько раз, оформляют список «ДАНО — КОГДА — ПОТОМ — И...» и запускают имплементацию. То есть разработчик участвует в принятии решений по логике, продумывает валидируемые детали.
Я вижу огромный потенциал для масштабирования подхода ProgramBench с двух сторон:
— решение LLM-агентом задач и получение обратной связи на то, что и где сработало, что нет. Это будет прокачивать долгосрочное планирование и архитектуру у агентов, ведь нужно как-то вываливать десять тысяч строк кода и больше. Всё в контекст не влезет, модели нужно будет учиться использовать внешнюю память.
— автоматическое создание спецификаций, даже при отсутствии исходного кода и бинарника для запуска. Тысячи детальных авто-сгенерированных спек. LLM-агенты могут продумывать пользовательский путь, декомпозировать фичи, проводить анализ схожей функциональности у ближайших конкурентов или аналогов. Пока что это будет на костылях, нужно какой-то системный подход продумать, уверен, над этим в компаниях работают.
И если первое понятно как использовать при наличии спеки, то что по второму? А то же самое — если эта система обучается из какой-то обратной связи, то я вижу, как можно генерировать большую часть спек автоматически. Агент просто задаст несколько верхнеуровневых вопросов и сам уйдет декомпозировать.
И получается, что открывается целая новая область окружений для тренировки агентов (как это было с имплементацией PR с GitHub в последние пару лет). Пойдут ли туда компании? Мне понятно, почему это желанно с экономической точки зрения. Dario Amodei на недавнем подкасте у Dwarksh говорил, что через сколько то месяцев-лет они закроют цикл Software Engineering, и уточнил, что речь и про архитектуру/планирование, а не только написание кода. Для меня описанный выше сценарий масштабирования тренировки выглядит сонаправленным с этим — модель и будет учиться продуктово мыслить, прорабатывать сценарии и тесты для них, и имплементировать спеку.
Как после SWE-Bench оказалось, что модели теперь будут работать на уровне PR, так и тут может оказаться, что новый способ разработки будет «по часовому голосовому сообщению с описанием того что я хочу агенты пошли написали 100 страниц спек и начали их имплементировать. За выходные справились» — и спеки, как понятно, будут инструментом агентов, а не людей.
1👍130🤯21🤡16 9❤🔥8🔥7🤔6💩4👨💻4🎉1
METR прогнали Mythos Preview на датасете для замера горизонта выполнения задач.
Как и ожидалось (по таймлайну, экстраполируя данные), модель сломала бенчмарк👨🦳 в нём очень мало задач, требующих 16 и более часов работы человека, поэтому конкретную цифру дать сложно — сами METR пишут «не менее 16 часов» (Opus 4.6 был 12 часов) для 50% вероятности успеха.
Для 80% — 3 часа (против полутора у Gemini 3.1 Pro).
METR давно говорят, что работают над новым набором более длинных задач, но как вы понимаете клепать по 5 50-часовых задач в неделю просто не получится.
А даже если такие задачи набрать — то всего лишь два удвоения (16->32->64) — и снова упрёмся в ту же проблему. И с текущим трендом такое произойдет всего за ~200 дней.
Как и ожидалось (по таймлайну, экстраполируя данные), модель сломала бенчмарк
Для 80% — 3 часа (против полутора у Gemini 3.1 Pro).
METR давно говорят, что работают над новым набором более длинных задач, но как вы понимаете клепать по 5 50-часовых задач в неделю просто не получится.
А даже если такие задачи набрать — то всего лишь два удвоения (16->32->64) — и снова упрёмся в ту же проблему. И с текущим трендом такое произойдет всего за ~200 дней.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯133❤🔥30🎉18🤔10🔥6🤡6👍5😭3👎1 1
В предстоящем полете (оптимистично — на следующей неделе) нас ждёт всё новое:
— новый корабль версии v3
— новый ускоритель версии v3
— новая башня, вторая на космодроме в Техасе
— новый пусковой стол другого дизайна
Полет будет повторять тот же профиль, что и предыдущий, и корабль немного не долетит до орбиты. Обе части системы будут садиться на воду. Если корабль сядет очень хорошо — в следующем полете могут попытаться впервые посадить его на башню.
— новый корабль версии v3
— новый ускоритель версии v3
— новая башня, вторая на космодроме в Техасе
— новый пусковой стол другого дизайна
Полет будет повторять тот же профиль, что и предыдущий, и корабль немного не долетит до орбиты. Обе части системы будут садиться на воду. Если корабль сядет очень хорошо — в следующем полете могут попытаться впервые посадить его на башню.
🎉84🔥48💩14❤🔥6👍4🌚3 3🤡2👎1
Forwarded from SpaceX | Starship News
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍146❤🔥61🎉25🔥19🤡12💩9👎4 2
Читая статью DeepSeek v4, я выписал себе больше 90 вопросов. Большинство обзоров упускают детали, хотя именно разбираясь в них можно по-настоящему чему-то научиться.
Поэтому вместо лонга с фокусом на 5-7-10 аспектов я решил опробовать новый формат: Annotated Paper Walkthrough. Суть в том, что вы всё так же читаете оригинальную статью как исходник, но как только материал становится сложным или запутанным, я буквально провожу вас за руку. Вы получаете подробные сноски с визуализациями, кусками кода, ссылками и — самое главное — необходимым контекстом, чтобы не чувствовать себя потерянным.
Сегодня я выпускаю v1 с первыми 50 заметками. Кое-что из того, что я разбираю:
• Почему Softmax и Sigmoid в MoE-роутере заменили на Sqrt-Softplus?
• Что вообще такое этот Birkhoff polytope?
• Правда ли, что attention обрабатывает некоторые токены по 3 раза?
• Что такое split-KV и split-K, и почему DeepSeek от них отказались?
• Зачем используется Reverse KL, и откуда она вообще берется?
...и многое другое. Даже самые требовательные читатели найдут здесь для себя что-то новое.
Опенсорс-модели всё ещё активно заимствуют идеи из DeepSeek v3, и нет сомнений, что детали из v4 скоро станут стандартной темой в обсуждениях и на ML-собеседованиях. Надеюсь, этот гайд поможет вам быть на шаг впереди.
Как пошутил мой приятель, прочтение этого материала сделает вас не только лучше как инженера, но и как человека😏 Верить этому или нет — не знаю, но вы попробуйте:
https://dsv4.interactive.ikot.blog
Поэтому вместо лонга с фокусом на 5-7-10 аспектов я решил опробовать новый формат: Annotated Paper Walkthrough. Суть в том, что вы всё так же читаете оригинальную статью как исходник, но как только материал становится сложным или запутанным, я буквально провожу вас за руку. Вы получаете подробные сноски с визуализациями, кусками кода, ссылками и — самое главное — необходимым контекстом, чтобы не чувствовать себя потерянным.
Сегодня я выпускаю v1 с первыми 50 заметками. Кое-что из того, что я разбираю:
• Почему Softmax и Sigmoid в MoE-роутере заменили на Sqrt-Softplus?
• Что вообще такое этот Birkhoff polytope?
• Правда ли, что attention обрабатывает некоторые токены по 3 раза?
• Что такое split-KV и split-K, и почему DeepSeek от них отказались?
• Зачем используется Reverse KL, и откуда она вообще берется?
...и многое другое. Даже самые требовательные читатели найдут здесь для себя что-то новое.
Опенсорс-модели всё ещё активно заимствуют идеи из DeepSeek v3, и нет сомнений, что детали из v4 скоро станут стандартной темой в обсуждениях и на ML-собеседованиях. Надеюсь, этот гайд поможет вам быть на шаг впереди.
Как пошутил мой приятель, прочтение этого материала сделает вас не только лучше как инженера, но и как человека
https://dsv4.interactive.ikot.blog
Media is too big
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
348👎7.48K🤡4.86K💩2.53K🔥336👍151❤🔥91🤯27 12🤣4 4🌚1
Надеюсь, многие из вас помнят бенчмарк FrontierMath по оценке моделей на очень сложных математических задачах около-исследовательского уровня (то есть встречающихся в работе людей, старающихся двигать фронтир науки).
Новость 1: на Tier 4, самой сложной группе задач, DeepMind заняли топ-1 со своей новой агентской системой Co-Mathematician, решив 48% задач. Это солидный отрыв от предыдущего первого места GPT-5.5 Pro и 40%. Каждая из решённых задач очень сложна и занимала существенное время у исследователя, который добавил её в бенчмарк.
Новость 2: Epoch.AI, авторы этого бенчмарка, отчитались о том, что делают внимательную вычитку ответов и решений, и выяснили, что около ... трети всех задач имеют неправильные ответы в их системе проверки👨🦳 . Для проверки используют GPT-5.5, пока не уточнили как — просят ли искать ошибки в оригинальных решениях или как-то ещё. Ждём исправленной версии, может быть оценки моделей чуть подскочат.
Новость 3: почему именно GPT-5.5? На бенчмарке от других авторов BrokenArxiv модель разносит конкурентов просто в щепки, отрываясь от топ-2 почти в 3 раза. BrokenArxiv — это бенчмарк на основе формул и доказательств из статей/препринтов, в которых авторы намеренно поменяли какие-то части, чтобы выражения выглядели правдоподобными, но гарантированно ложными. И просят модели их доказать. Большинство моделей пишет разные доказательства, очевидно, неправильные, и лишь модель OpenAI часто говорит, что доказательства нет, так как выражение ложное.
Поэтому модель хорошо использовать для проверок/вычитки мат. задач и решений.
На картинке вы можете видеть результаты на самом свежем наборе задач, составленном на основе статей, вышедших в апреле (так что модели почти наверняка на них не тренировались):
Новость 1: на Tier 4, самой сложной группе задач, DeepMind заняли топ-1 со своей новой агентской системой Co-Mathematician, решив 48% задач. Это солидный отрыв от предыдущего первого места GPT-5.5 Pro и 40%. Каждая из решённых задач очень сложна и занимала существенное время у исследователя, который добавил её в бенчмарк.
Новость 2: Epoch.AI, авторы этого бенчмарка, отчитались о том, что делают внимательную вычитку ответов и решений, и выяснили, что около ... трети всех задач имеют неправильные ответы в их системе проверки
Новость 3: почему именно GPT-5.5? На бенчмарке от других авторов BrokenArxiv модель разносит конкурентов просто в щепки, отрываясь от топ-2 почти в 3 раза. BrokenArxiv — это бенчмарк на основе формул и доказательств из статей/препринтов, в которых авторы намеренно поменяли какие-то части, чтобы выражения выглядели правдоподобными, но гарантированно ложными. И просят модели их доказать. Большинство моделей пишет разные доказательства, очевидно, неправильные, и лишь модель OpenAI часто говорит, что доказательства нет, так как выражение ложное.
Поэтому модель хорошо использовать для проверок/вычитки мат. задач и решений.
На картинке вы можете видеть результаты на самом свежем наборе задач, составленном на основе статей, вышедших в апреле (так что модели почти наверняка на них не тренировались):
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥138🤡23🤯14👍10❤🔥8👨💻3👎2💩2🤔1 1
Немного обновлений по ходу судебного дела Musk v Altman. Я частично слушаю разговоры на стриме из суда на YouTube, полностью послушал допрос Ilya Sutskever, Sam Altman и немного других членов разбирательства.
Сегодня допрашивали Sama, но удивлён, как быстро он отделался, даже не полный день. Elon сидел на трибуне несколько дней, рассказывал что как где.
У обвинения были претензии по нескольким направлениям:
— Sama постоянно врёт, все говорят, что врёт и стравливает людей. Но юристы как-то кринжово вели допрос👨🦳 "а вот Dario Amodei говорил что вы врёте" — "а он так сказал? я не в курсе, не слышал от него" — "но вот Mira Murati говорила что вы врали ей" — "а я не слушал её показания, она так говорила?" — "простите, но у нас нет времени читать судебный транскрипт показаний". Судья даже вставила в середине специально для присяжных, что "вопросы не являются доказательствами".
— Sama владеет долями в компаниях, с которыми OpenAI ведёт бизнес. Но с его слов и со слов членов совета директоров он никогда не принимал решения и не подписывал эти договоренности, следуя законному процессу, чтобы не было конфликта интересов. Но даже при этом всём у него нет доли в OpenAI, а суммарный капитал буквально каждого второго на трибуне превышает размер его доли в компаниях. В общем, хреновый из него инвестор😂
— самое важное: никто из опрошенных, кроме, возможно, Elon Musk (я не слушал все 3-4 дня его допроса, поэтому не могу на 100% быть уверен, что он это говорил), не говорил, что а) OpenAI обязались выкладывать в открытый доступ свои наработки б) OpenAI обремлена какими-то рамками из-за того, что взяли деньги у Elon Musk (это был взнос в НКО) в) Elon до недавнего времени что-то говорил про недовольство коммерческой частью OpenAI или системы компенсаций.
Ещё есть разного по мелочам, но напишу детали со вчерашнего допроса Ilya Sutskever:
— Когда Sama уволили, то совет директоров действительно встречался с Anthropic, чтобы предложить объединить две компании. Об этом писали в новостях ещё пару лет назад, но никакого развития событий не было. Так вот, теперь это официально. Но Dario послал :)
— Лично Ilya не был доволен потенциальным объединением, и не хотел этого
— Google предлагал ему компенсацию $6M в год, чтобы он не уходил в OpenAI. Сейчас это маленькие цифры на фоне миллиардных пакетов, но тогда было ого-го!
— Он не считает что команда Superalignment (занимающаяся AI Safety, была под руководством Ilya) была урезана в ставках на найм или вычислительных мощностях. Это ломает нарратив Elon Musk, что OpenAI забивают на свои обещания вести безопасную разработку AGI.
— Ilya отдельно подчеркнул, что он лично обсуждал с Elon Musk, что компания НЕ БУДЕТ выкладывать всё в открытый доступ. И было это ещё до 2018-го года. Почему сейчас Elon недоволен — загадка.
— Про статью Hellen Toner Ilya сказал так: он не был ей прям совсем недоволен, но это был очень деликатный топик, и что она должна была обсудить формулировки с советом директоров или хотя бы их предупредить. Ilya считал, что возможны ситуации, при которых её действия не были подходящими должности директора.
О какой статье речь? В которой Hellen упрекала OpenAI в подходе к релизу моделей и хвалила подход Anthropic. Моя рабочая версия такова, что Sama именно за неё хотел уволить Toner, поэтому соврал другому члену совета директоров для получения голоса. Ложь вскрылась, директора решили проголосовать за его увольнение, ну а дальше закрутилось-завертелось.
===
Не знаю, через сколько закончится дело и присяжные вынесут вердикт, но как я понимаю это произойдет в течение 2, край 3 недель. Основные свидетели опрошены, документы зачитаны, видео посмотрены. Как я писал, ожидаю, что Elon проиграет дело.
Сегодня допрашивали Sama, но удивлён, как быстро он отделался, даже не полный день. Elon сидел на трибуне несколько дней, рассказывал что как где.
У обвинения были претензии по нескольким направлениям:
— Sama постоянно врёт, все говорят, что врёт и стравливает людей. Но юристы как-то кринжово вели допрос
— Sama владеет долями в компаниях, с которыми OpenAI ведёт бизнес. Но с его слов и со слов членов совета директоров он никогда не принимал решения и не подписывал эти договоренности, следуя законному процессу, чтобы не было конфликта интересов. Но даже при этом всём у него нет доли в OpenAI, а суммарный капитал буквально каждого второго на трибуне превышает размер его доли в компаниях. В общем, хреновый из него инвестор
— самое важное: никто из опрошенных, кроме, возможно, Elon Musk (я не слушал все 3-4 дня его допроса, поэтому не могу на 100% быть уверен, что он это говорил), не говорил, что а) OpenAI обязались выкладывать в открытый доступ свои наработки б) OpenAI обремлена какими-то рамками из-за того, что взяли деньги у Elon Musk (это был взнос в НКО) в) Elon до недавнего времени что-то говорил про недовольство коммерческой частью OpenAI или системы компенсаций.
Ещё есть разного по мелочам, но напишу детали со вчерашнего допроса Ilya Sutskever:
— Когда Sama уволили, то совет директоров действительно встречался с Anthropic, чтобы предложить объединить две компании. Об этом писали в новостях ещё пару лет назад, но никакого развития событий не было. Так вот, теперь это официально. Но Dario послал :)
— Лично Ilya не был доволен потенциальным объединением, и не хотел этого
— Google предлагал ему компенсацию $6M в год, чтобы он не уходил в OpenAI. Сейчас это маленькие цифры на фоне миллиардных пакетов, но тогда было ого-го!
— Он не считает что команда Superalignment (занимающаяся AI Safety, была под руководством Ilya) была урезана в ставках на найм или вычислительных мощностях. Это ломает нарратив Elon Musk, что OpenAI забивают на свои обещания вести безопасную разработку AGI.
— Ilya отдельно подчеркнул, что он лично обсуждал с Elon Musk, что компания НЕ БУДЕТ выкладывать всё в открытый доступ. И было это ещё до 2018-го года. Почему сейчас Elon недоволен — загадка.
— Про статью Hellen Toner Ilya сказал так: он не был ей прям совсем недоволен, но это был очень деликатный топик, и что она должна была обсудить формулировки с советом директоров или хотя бы их предупредить. Ilya считал, что возможны ситуации, при которых её действия не были подходящими должности директора.
О какой статье речь? В которой Hellen упрекала OpenAI в подходе к релизу моделей и хвалила подход Anthropic. Моя рабочая версия такова, что Sama именно за неё хотел уволить Toner, поэтому соврал другому члену совета директоров для получения голоса. Ложь вскрылась, директора решили проголосовать за его увольнение, ну а дальше закрутилось-завертелось.
===
Не знаю, через сколько закончится дело и присяжные вынесут вердикт, но как я понимаю это произойдет в течение 2, край 3 недель. Основные свидетели опрошены, документы зачитаны, видео посмотрены. Как я писал, ожидаю, что Elon проиграет дело.
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍95 40❤🔥18🤔10💩9🔥6👎4👨💻3🤡2🤣1
Сиолошная
Вчера вышел бенчмарк для кодинг-агентов ProgramBench от авторов SWE-Bench, на который мы будем смотреть ближайший год+. Задача агента — воспроизвести код уже готовой программы, имея доступ к скомпилированному бинарному файлу и пользовательской документации.…
Маленькое обновление по свежему бенчмарку ProgramBench (писал о нем неделю назад тут). Авторы соизволили прогнать GPT 5.5 на high/xhigh (максимальная длина рассуждений и время работы). И Opus 4.7 до кучи тоже. Процитирую авторов: «GPT 5.5 xhigh значительно превосходит Claude Opus 4.7 xhigh по всем параметрам» 😏
Во-первых, появилась первая полностью решённая задача (из 200). Оба запуска GPT-5.5 решили её, при этом на двух разных языках, Python и C.
Во-вторых, если брать не полностью решённые задачи, а те, где проходит 95% тестов (то есть выполнена почти вся функциональность), то разрыв ещё больше: GPT-5.5 xhigh может написать с нуля 13.5% программ, GPT 5.5 high 5%, Opus 4.7 xhigh 4.5%. Я не ожидал такой разницы.
На второй картинке график доли задач, в которых проходит заданный процент тестов. Видно, как фронтир GPT-5.5 xhigh гораздо правее и выше, чем других моделей — то есть в целом модель закрывает сильно больше фичей в задачах.
К сожалению, авторы так и не прогнали модели в Codex / Claude Code, не говоря уже про какой-то минимальный цикл работы до конца (аналог `/goal`), и я всё ещё ожидаю, что это повысит качество ещё больше.
Что это значит для нас? Ждём к концу года агентов, которые будут выплёвывать по 100к строк кода на ваш промпт, и даже работать будет (на 95%😂 )
Во-первых, появилась первая полностью решённая задача (из 200). Оба запуска GPT-5.5 решили её, при этом на двух разных языках, Python и C.
Во-вторых, если брать не полностью решённые задачи, а те, где проходит 95% тестов (то есть выполнена почти вся функциональность), то разрыв ещё больше: GPT-5.5 xhigh может написать с нуля 13.5% программ, GPT 5.5 high 5%, Opus 4.7 xhigh 4.5%. Я не ожидал такой разницы.
На второй картинке график доли задач, в которых проходит заданный процент тестов. Видно, как фронтир GPT-5.5 xhigh гораздо правее и выше, чем других моделей — то есть в целом модель закрывает сильно больше фичей в задачах.
К сожалению, авторы так и не прогнали модели в Codex / Claude Code, не говоря уже про какой-то минимальный цикл работы до конца (аналог `/goal`), и я всё ещё ожидаю, что это повысит качество ещё больше.
Что это значит для нас? Ждём к концу года агентов, которые будут выплёвывать по 100к строк кода на ваш промпт, и даже работать будет (на 95%
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥155🤡35👍23🤯18👎10 8 6🔥3💩2👨💻2🤔1
Сиолошная
К сожалению, авторы так и не прогнали модели в Codex / Claude Code, не говоря уже про какой-то минимальный цикл работы до конца (аналог `/goal`), и я всё ещё ожидаю, что это повысит качество ещё больше.
На нём моделям дают гораздо больше времени и токенов на воспроизведение программ, поэтому каждый запуск стоит дороже.
Очень надеюсь, что хотя бы OpenAI повторят свой рождественский подарок с o3-preview, где прогнали бенчмарк на ~миллион долларов по ценам API (для самой компании это обходится сильно дешевле).
Теперь ждём релизов Claude Sonnet 4.7 и GPT 5.6 чисто чтобы посмотреть, какие оценки зарепортят компании
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥120🤯50🤣19🌚11👍10🤡5👨💻2💩1
Появляется всё больше и больше историй от компаний, работающих и тестирующих Mythos. Хотел поделиться несколькими картинками из блога XBOW, компании, занимающейся AI-assisted cybersecurity.
На первой картинке результаты их основного бенчмарка, правда ось OY выражена странно, как odds (как в ставках). Если перевести в проценты уязвимостей, найденных моделями, то получится Opus 4.6 83%, GPT-5.5 88%, Mythos 91.5%. Скачок по отношению к моделям Anthropic солидный, но OpenAI с 5.5 и вправду находятся лишь слегка позади. Я пишу "и вправду", так как недавно вышло исследование AISI, где они пришли к заключению, что на их задачах разницы в задачах на кибербезопастность разницы почти нет. Думаю, что модели близки, но скорее всего Mythos чуть-чуть впереди.
На картинка 2-4 показано качество на одном и том же бенчмарке, выраженное в разном способе оценки длинны работы моделей: количество шагов, сгенерированных токенов и цены токенов. Mythos более эффективен (нужно меньше токенов и шагов), чем Opus 4.6 и даже GPT-5.5, но в пересчёте на доллары GPT-5.5 берёт верх. Чтобы раскрыть Mythos, придётся потратить сильно больше.
На последней картинке доли эксплойтов, найденных для обнаруженных уязвимостей, если модели видят и код, и сайт, или только сайт, или только код. В первых двух колонках разница не очень большая, а вот чисто по исходному коду Mythos делает гораздо больше правильных заключений об эксплуатации уязвимостей, чем GPT-5.5. Но для меня большой сюрприз, что без кода обе модели работают так хорошо.
Способности Mythos по коду находить проблемы XBOW очень хвалят и выделяют, цитата: «как пример, какая-то сторонняя библиотека может быть безопасной. Сам по себе исходный код приложения тоже может быть безопасным. Но исходный код использует эту библиотеку небезопасным способом и создает уязвимость. Как справедливо заметил Gary McGraw, большинство проблем не обнаружится, если просто «смотреть на код». А вот Mythos находит много.
На первой картинке результаты их основного бенчмарка, правда ось OY выражена странно, как odds (как в ставках). Если перевести в проценты уязвимостей, найденных моделями, то получится Opus 4.6 83%, GPT-5.5 88%, Mythos 91.5%. Скачок по отношению к моделям Anthropic солидный, но OpenAI с 5.5 и вправду находятся лишь слегка позади. Я пишу "и вправду", так как недавно вышло исследование AISI, где они пришли к заключению, что на их задачах разницы в задачах на кибербезопастность разницы почти нет. Думаю, что модели близки, но скорее всего Mythos чуть-чуть впереди.
На картинка 2-4 показано качество на одном и том же бенчмарке, выраженное в разном способе оценки длинны работы моделей: количество шагов, сгенерированных токенов и цены токенов. Mythos более эффективен (нужно меньше токенов и шагов), чем Opus 4.6 и даже GPT-5.5, но в пересчёте на доллары GPT-5.5 берёт верх. Чтобы раскрыть Mythos, придётся потратить сильно больше.
На последней картинке доли эксплойтов, найденных для обнаруженных уязвимостей, если модели видят и код, и сайт, или только сайт, или только код. В первых двух колонках разница не очень большая, а вот чисто по исходному коду Mythos делает гораздо больше правильных заключений об эксплуатации уязвимостей, чем GPT-5.5. Но для меня большой сюрприз, что без кода обе модели работают так хорошо.
Способности Mythos по коду находить проблемы XBOW очень хвалят и выделяют, цитата: «как пример, какая-то сторонняя библиотека может быть безопасной. Сам по себе исходный код приложения тоже может быть безопасным. Но исходный код использует эту библиотеку небезопасным способом и создает уязвимость. Как справедливо заметил Gary McGraw, большинство проблем не обнаружится, если просто «смотреть на код». А вот Mythos находит много.
👍117🔥39🌚12 5 3💩2🤡1
Сиолошная
Появляется всё больше и больше историй от компаний, работающих и тестирующих Mythos. Хотел поделиться несколькими картинками из блога XBOW, компании, занимающейся AI-assisted cybersecurity. На первой картинке результаты их основного бенчмарка, правда ось…
...и вы не поверите товарищ майор, как только я дописал пост и открыл твиттер, так тут же новый пост от AISI. Они говорят, что получили доступ к более свежему чекпоинту Mythos 👨🦳 и там уже видно отрыв от GPT-5.5 (даже -Cyber, версии модели, заточенной на кибербез).
Новый Mythos совершает сложную многоступенчатую атаку в 6 попытках из 10 (предыдущая модель 3/10, GPT-5.5 2/10).
На другой задаче, которую ещё ни одна модель не решала (тоже длинная цепочка взлома корпоративной сети), новый Mythos справился 3 раза из 10🤒
...обе задачи AISI впервые анонсировали в марте 2026-го года. Наверное не думали, что за 2 месяца их решат))))))))) интересно, что дальше делать будут
Новый Mythos совершает сложную многоступенчатую атаку в 6 попытках из 10 (предыдущая модель 3/10, GPT-5.5 2/10).
На другой задаче, которую ещё ни одна модель не решала (тоже длинная цепочка взлома корпоративной сети), новый Mythos справился 3 раза из 10
...обе задачи AISI впервые анонсировали в марте 2026-го года. Наверное не думали, что за 2 месяца их решат))))))))) интересно, что дальше делать будут
Please open Telegram to view this post
VIEW IN TELEGRAM
3🌚125🤯70👍33👨💻8🤣3🔥1💩1
Сиолошная
Произошёл додеп — Anthropic теперь расширили и недельный лимит на 50% (до 13-го июля, на 2 месяца). Это в дополнение к недавнему удвоению 5-часовых лимитов. А у Codex в конце мая акция с удвоением как раз заканчивается 🌚
Ещё сегодня вышла свежая статистика от Ramp, компании для менеджмента корпоративных трат и выпуска карт и (например, для сотрудников в командировке).
По их данным, 50% компаний в США платят за AI подписки, и впервые доля Anthropic превысила долю OpenAI (которые не росли почти год).
Самая частая критика этой аналитики в том, что очень многие крупные компании не пользуются Ramp, так что статистика не самая точная.
Но имеем что имеем, и в ответ на это Дядя Сэм объявил, что компании могут попробовать Codex бесплатно на два месяца. Попробовать заполнить форму можно тут — ограничений по странам не вижу, так что мб работает не только в Штатах.
🥊 битва за рыночек
По их данным, 50% компаний в США платят за AI подписки, и впервые доля Anthropic превысила долю OpenAI (которые не росли почти год).
Самая частая критика этой аналитики в том, что очень многие крупные компании не пользуются Ramp, так что статистика не самая точная.
Но имеем что имеем, и в ответ на это Дядя Сэм объявил, что компании могут попробовать Codex бесплатно на два месяца. Попробовать заполнить форму можно тут — ограничений по странам не вижу, так что мб работает не только в Штатах.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍106🔥36🌚17 9🤔4🤣4💩2🤡1👨💻1
Сиолошная
Не знаю, через сколько закончится дело и присяжные вынесут вердикт, но как я понимаю это произойдет в течение 2, край 3 недель.
Апдейт: сегодня закончились слушания свидетелей и экспертов, завтра будет выступление адвокатов перед присяжными (каждое не менее 2 часов). Адвокаты постараются исходя из всего обсуждённого нарисовать картину и описать, почему они правы.
Ну а после присяжные удалятся для вынесения приговора. Параллельно с ними будет думать и судья, так как приговор присяжных не является финальным, и судья может пересмотреть вердикт. А пока можно пересмотреть 12 Angry Men 🌚
Ну а после присяжные удалятся для вынесения приговора. Параллельно с ними будет думать и судья, так как приговор присяжных не является финальным, и судья может пересмотреть вердикт. А пока можно пересмотреть 12 Angry Men 🌚
🤡3.41K👍38🌚24🔥8🤔2💩1👨💻1