Новый опус: https://www.anthropic.com/news/claude-opus-4-8
1) цена та же
2) сделали гранулярную разбивку длины рассуждений, как у ChatGPT
3) fast режим, ускоряющий генерацию в 2.5 раза, теперь в 3 раза дешевле, чем для предыдущих моделей. Получается было в 6 раз дороже, сейчас в 2 — надо брать.
4) «Одним из наиболее заметных улучшений в Opus 4.8 является его честность» — модель будет врать поменьше (наверное)
5) «Мы планируем выпустить новый класс моделей с ещё более высоким уровнем интеллекта, чем у Opus» — ждём «в ближайшие недели»
1) цена та же
2) сделали гранулярную разбивку длины рассуждений, как у ChatGPT
3) fast режим, ускоряющий генерацию в 2.5 раза, теперь в 3 раза дешевле, чем для предыдущих моделей. Получается было в 6 раз дороже, сейчас в 2 — надо брать.
4) «Одним из наиболее заметных улучшений в Opus 4.8 является его честность» — модель будет врать поменьше (наверное)
5) «Мы планируем выпустить новый класс моделей с ещё более высоким уровнем интеллекта, чем у Opus» — ждём «в ближайшие недели»
👍210🔥84❤🔥32🤡13🌚10🤣8🤔3👨💻3🤯2🎉1💩1
Сиолошная
сделали гранулярную разбивку длины рассуждений, как у ChatGPT
Вот так выглядит на SWE-bench Pro
Обратите внимание, что в Claude Code по умолчанию стоит high, а не x-high или max.
Обратите внимание, что в Claude Code по умолчанию стоит high, а не x-high или max.
4🔥113👍28🤔9🌚5👨💻3
Anthropic ещё сказали про сущий пустяк — привлекли 65 миллиардов долларов при оценке 900, и ARR вышел на невероятные 47 миллиардов долларов (выручка за год, если спрос никак не поменяется по отношению к последнему месяцу).
Оооочень хочется узнать ARR OpenAI👀 почти наверняка они отстают, но на сколько?
Оооочень хочется узнать ARR OpenAI
Please open Telegram to view this post
VIEW IN TELEGRAM
1🎉202🔥55🌚39 17🤯12👍9🤡8🤔7 3👎1🤣1
Кроме новой модели и раунда инвестиций Anthropic представили можно сказать следующий шаг в агентской разработке — dynamic workflows. Именно с помощью этой фичи был осуществлен перевоз Bun с Zig на Rust.
Когда запускается dynamic workflows, Claude создает динамический план на основе запроса, разбивает на подзадачи и распределяет работу между параллельно работающими агентами. Результаты проверяются перед их сливнием, и в итоге вы получаете единый готовый ответ. Одни агенты решают отдельные независимые проблемы, другие агенты пытаются найти ошибки в полученных результатах, и процесс продолжается до тех пор, пока второй этап не вернет пустой результат.
Dynamic workflows созданы для длительной распараллеливаемой работы, которая может продолжаться часами и днями, выполняя самые сложные инженерные задачи, которые раньше занимали бы недели. Прогресс сохраняется по мере выполнения, поэтому прерванная задача возобновляется с того места, где остановилась, вместо того, чтобы начинаться заново.
Пример как именно это работало с Bun:
Один workflow определил правильный lifetime (время жизни) в Rust для каждого поля структуры в кодовой базе Zig (это важный атрибут языка). Следующий workflow переписал каждый файл .rs как идентичный порт его .zig-аналога, при этом сотни агентов работали параллельно, а каждый файл проверяли два ревьюера. Затем цикл исправлений прогонял сборку и набор тестов до тех пор, пока они не начали выполняться без единой ошибки. После того как весь код был объединен, отдельный workflow устранил лишнее копирование данных и открыл PR для каждого случая на финальное ревью — которое тоже может быть выполнено агентами.
Как вы понимаете, жрёт это всё немало токенов. Число кейсов для применения ограничено — порт с одного стека на другой является самым ярким, так как у агентов есть критерии.
Когда запускается dynamic workflows, Claude создает динамический план на основе запроса, разбивает на подзадачи и распределяет работу между параллельно работающими агентами. Результаты проверяются перед их сливнием, и в итоге вы получаете единый готовый ответ. Одни агенты решают отдельные независимые проблемы, другие агенты пытаются найти ошибки в полученных результатах, и процесс продолжается до тех пор, пока второй этап не вернет пустой результат.
Dynamic workflows созданы для длительной распараллеливаемой работы, которая может продолжаться часами и днями, выполняя самые сложные инженерные задачи, которые раньше занимали бы недели. Прогресс сохраняется по мере выполнения, поэтому прерванная задача возобновляется с того места, где остановилась, вместо того, чтобы начинаться заново.
Пример как именно это работало с Bun:
Один workflow определил правильный lifetime (время жизни) в Rust для каждого поля структуры в кодовой базе Zig (это важный атрибут языка). Следующий workflow переписал каждый файл .rs как идентичный порт его .zig-аналога, при этом сотни агентов работали параллельно, а каждый файл проверяли два ревьюера. Затем цикл исправлений прогонял сборку и набор тестов до тех пор, пока они не начали выполняться без единой ошибки. После того как весь код был объединен, отдельный workflow устранил лишнее копирование данных и открыл PR для каждого случая на финальное ревью — которое тоже может быть выполнено агентами.
Как вы понимаете, жрёт это всё немало токенов. Число кейсов для применения ограничено — порт с одного стека на другой является самым ярким, так как у агентов есть критерии.
💩1.1K👍159❤🔥34🔥21 8🤔6🌚5🤡3👨💻1
Сиолошная
Кроме новой модели и раунда инвестиций Anthropic представили можно сказать следующий шаг в агентской разработке — dynamic workflows. Именно с помощью этой фичи был осуществлен перевоз Bun с Zig на Rust. Когда запускается dynamic workflows, Claude создает…
Пример того как выглядит workflow можно посмотреть вот в этом PR для Bun.
По сути это большой набор автосгенерированных .js-файлов, в которых просто хранится структура выполнения набора промптов. Там бквально есть циклы вида «для каждого файла запусти агента с таким промптом», проверки «ни один агент не вернул такой-то результат» или «2 агента-ревьюира отсмотрели и одобрили код».
Мне было бы куда интереснее посмотреть workflow для бизнес-задач, как CC распланирует работу над каким-нибудь отчётом или обзором, как будет ревьюить, переписывать, вычитывать, итд. Но примеров пока нет :(
По сути это большой набор автосгенерированных .js-файлов, в которых просто хранится структура выполнения набора промптов. Там бквально есть циклы вида «для каждого файла запусти агента с таким промптом», проверки «ни один агент не вернул такой-то результат» или «2 агента-ревьюира отсмотрели и одобрили код».
Мне было бы куда интереснее посмотреть workflow для бизнес-задач, как CC распланирует работу над каким-нибудь отчётом или обзором, как будет ревьюить, переписывать, вычитывать, итд. Но примеров пока нет :(
💩1.08K👍101🔥17🤔11🌚8👨💻6 5🤣4🤡2
Forwarded from Техасский Вестник
This media is not supported in your browser
VIEW IN TELEGRAM
Ракета New Glenn взорвалась на площадке во время огневых испытаний — это самый мощный взрыв на Мысе Канаверал за десятки лет.
Остаётся надеяться, что никто не пострадал, тк во время подробных испытаний проводят эвакуацию площадки.
Сам взрыв на площадке LC-36 произошёл во время дежурного прожига новой первой ступени, когда ракета не была полностью заправлена. Это был плановый этап перед запуском NG-4 на следующей неделе. Официального заявления от компании пока не было, и подробностей нет.
Но это конечно мощнейший удар по Blue Origin, тк этот стартовый комплекс с очень сложным ретрактором был единственной площадкой для запуска этой ракеты. Особенно на фоне неудачного прошлого пуска, анонсам по доставке нагрузки на Луну от NASA, и их амбициозным планам обогнать SpaceX в гонке за высадку во время Artemis 4.
Дежурное напоминание, что космос это сложно. Blue Origin Джеффа Безоса остаются топ2 компанией в отрасли, и второй с возвращаемым ускорителем орбитального класса.
UPD: никто не пострадал.
📸: NASASpaceFlight
Остаётся надеяться, что никто не пострадал, тк во время подробных испытаний проводят эвакуацию площадки.
Сам взрыв на площадке LC-36 произошёл во время дежурного прожига новой первой ступени, когда ракета не была полностью заправлена. Это был плановый этап перед запуском NG-4 на следующей неделе. Официального заявления от компании пока не было, и подробностей нет.
Но это конечно мощнейший удар по Blue Origin, тк этот стартовый комплекс с очень сложным ретрактором был единственной площадкой для запуска этой ракеты. Особенно на фоне неудачного прошлого пуска, анонсам по доставке нагрузки на Луну от NASA, и их амбициозным планам обогнать SpaceX в гонке за высадку во время Artemis 4.
Дежурное напоминание, что космос это сложно. Blue Origin Джеффа Безоса остаются топ2 компанией в отрасли, и второй с возвращаемым ускорителем орбитального класса.
UPD: никто не пострадал.
📸: NASASpaceFlight
😭222🔥61🌚27🤯23❤🔥11💩8🤣7 6👍5👨💻3
Ребята из Nebius обновили SWE-rebench после двухмесячного перерыва, добавив 110 новых задач. В отличии от многих других бенчей, наконец-то добавляют запуски в Codex и Claude Code. Просто писать «GPT-5.5 в очередной раз статистически значимо лучше моделей Anthropic» не хотелось, но Ибрагим, первый автор статьи, добавил немного аналитики по эффективности.
— GPT-5.5 medium выглядит заметно эффективнее, чем Opus 4.8 high (обе настройки — значения по умолчанию)
— Opus 4.6 -> 4.8 стал более оптимизирован: больше решенных задач, на 45% меньше токенов на задачу и примерно на 39% ниже стоимость решения задачи.
— Opus 4.8 high практически не превосходит Opus 4.7 high по качеству, но значительно дешевле в плане вычислительных ресурсов. Количество токенов на задачу снизилось с 1.5 млн до 1 млн, а среднее количество шагов уменьшилось с 44 до 34.
— Полезной метрикой является pass^5. Здесь мы засчитываем задачу только в том случае, если она была решена во всех 5 независимых запусках. GPT-5.5 vs GPT-5.4 – 51 vs 39 задач, модель гораздо меньше полагается на «везение», что один раз получилось решить, другой нет. Для Opus это число практически одинаково во всех версиях модели.
— опенсурс очень сильно отстаёт
— Composer 2.5 от Cursor на этом наборе задач выглядит очень перспективно за счёт цены (см. колонку) — в 4 раза дешевле GPT-5.5 medium
— ещё отмечу, что Claude получает гораздо больший прирост качества из-за использования родного скаффолда, в то время как GPT показывает +- тот же результат (хотя цена отличается в два раза, интересно почему).
В целом думаю честно сказать, что модели OpenAI с появлением 5.5 перешли в новую эпоху. Если давно в программировании они отставали от Anthropic, и потом +- сравнялись, то теперь они часто обходят конкурентов (особенно если закрыть глаза на фронтенд).
— GPT-5.5 medium выглядит заметно эффективнее, чем Opus 4.8 high (обе настройки — значения по умолчанию)
— Opus 4.6 -> 4.8 стал более оптимизирован: больше решенных задач, на 45% меньше токенов на задачу и примерно на 39% ниже стоимость решения задачи.
— Opus 4.8 high практически не превосходит Opus 4.7 high по качеству, но значительно дешевле в плане вычислительных ресурсов. Количество токенов на задачу снизилось с 1.5 млн до 1 млн, а среднее количество шагов уменьшилось с 44 до 34.
— Полезной метрикой является pass^5. Здесь мы засчитываем задачу только в том случае, если она была решена во всех 5 независимых запусках. GPT-5.5 vs GPT-5.4 – 51 vs 39 задач, модель гораздо меньше полагается на «везение», что один раз получилось решить, другой нет. Для Opus это число практически одинаково во всех версиях модели.
— опенсурс очень сильно отстаёт
— Composer 2.5 от Cursor на этом наборе задач выглядит очень перспективно за счёт цены (см. колонку) — в 4 раза дешевле GPT-5.5 medium
— ещё отмечу, что Claude получает гораздо больший прирост качества из-за использования родного скаффолда, в то время как GPT показывает +- тот же результат (хотя цена отличается в два раза, интересно почему).
В целом думаю честно сказать, что модели OpenAI с появлением 5.5 перешли в новую эпоху. Если давно в программировании они отставали от Anthropic, и потом +- сравнялись, то теперь они часто обходят конкурентов (особенно если закрыть глаза на фронтенд).
👍180🔥76❤🔥26 15🤡10🤔7 7🌚4🎉2💩2👨💻2
Finally, PC 2 — Nvidia и Microsoft «переизобрели» персональные компьютеры для эпохи AI (я не шучу, в анонсе так и пишут, и даже «новая глава»).
За анонсом стоит новая платформа для PC и ноутбуков на основе RTX Spark Superchip, состоящего из GPU, CPU и объединённой памяти. По сути это то же самое, что M-чипы в ноутбуках Apple в последних лет, и они тоже на архитектуре Arm, и за счёт этого очень энергоэффективны.
В ноутбуки, а позже и в персональные компьютеры будут ставить 128 ГигаБайт памяти, чтобы можно было запускать LLM на 120 миллиардов параметров (в FP4 — чипы как раз это поддерживают). Собственно, это и есть «новизна» персональных компьютеров — теперь у каждого будет персональный локальный ассистент наподобие OpenClaw или Hermes, получающий доступ к окнам приложений Windows. Обещают более плотную интеграцию и в частности продвинутые настройки безопасности для доступа к данным.
Глобально концепция понятная, но думаю, что первые годы будет немного буксовать (из-за тяжести интеграций + нужды сделать 1-2 итераций над чипом + адаптировать разработчиков), но потом, особенно как модели поумнеют и ассистенты станут продвинутыми — полетит, и виртуальный Джарвис станет нуждой каждого.
Интересно, как в эту картину вплетутся OpenAI и Anthropic с проприетарными моделями? В теории могу даже представить, что они могут предоставлять закрытые локальные модели, за которые придётся платить — а в остальном для вас это просто выбрать другой пунктик в меню и подождать, пока закончится загрузка.
За анонсом стоит новая платформа для PC и ноутбуков на основе RTX Spark Superchip, состоящего из GPU, CPU и объединённой памяти. По сути это то же самое, что M-чипы в ноутбуках Apple в последних лет, и они тоже на архитектуре Arm, и за счёт этого очень энергоэффективны.
В ноутбуки, а позже и в персональные компьютеры будут ставить 128 ГигаБайт памяти, чтобы можно было запускать LLM на 120 миллиардов параметров (в FP4 — чипы как раз это поддерживают). Собственно, это и есть «новизна» персональных компьютеров — теперь у каждого будет персональный локальный ассистент наподобие OpenClaw или Hermes, получающий доступ к окнам приложений Windows. Обещают более плотную интеграцию и в частности продвинутые настройки безопасности для доступа к данным.
Глобально концепция понятная, но думаю, что первые годы будет немного буксовать (из-за тяжести интеграций + нужды сделать 1-2 итераций над чипом + адаптировать разработчиков), но потом, особенно как модели поумнеют и ассистенты станут продвинутыми — полетит, и виртуальный Джарвис станет нуждой каждого.
Интересно, как в эту картину вплетутся OpenAI и Anthropic с проприетарными моделями? В теории могу даже представить, что они могут предоставлять закрытые локальные модели, за которые придётся платить — а в остальном для вас это просто выбрать другой пунктик в меню и подождать, пока закончится загрузка.
9🔥289👍76🤡31👎12💩11 9🤯7❤🔥6👨💻4🌚2🤣1
Где-то полгода назад слышал от SemiAnalysis, что самые прибыльные компании в мире сейчас в 2027-м году и далее могут стать или еле-еле прибыльными, или вообще не иметь прибыли. Причина в том, что Google - Microsoft - Nvidia - Amazon - Meta (5 из 7 самых прибыльных) будут наращивать траты на датацентры, и все свободные деньги будут перенаправлены на AI.
Несмотря на то что Google за последние 4 квартала получили 195 миллиардов долларов чистыми (и обошли добывающую компанию Saudi Aramco, невероятно), они эти деньги пускают в дело, и на балансе последний раз когда я смотрел было ~$30B наличкой и ещё ~$70B ликвидом.
Но сливать их сразу в AI-гонку не хочется, и потому... третья самая дорогая компания в мире выпустит и продаст акций на 80 миллиардов долларов (это при том, что Google уже продавали столетние бонды), таким образом размыв доли всех держателей.
Ещё разок другой — и реально могут остаться без прибыли😦
Интересен и тайминг — они это сделали до выхода SpaceX на IPO (и тем более до OpenAI/Anthropic), так что пока что деньги у инвесторов есть. Но вот на тех, кто станет публичной компанией последним, может и не хватить — сейчас это реальное переживание. Поэтому между OpenAI и Anthropic идёт не только гонка моделей, но и кто быстрее выйдет на биржу. Anthropic вчера подали заявку S-1, которую Комиссия по ценным бумагам и биржам США отсмотрит, чтобы не допустить нарушений.
Несмотря на то что Google за последние 4 квартала получили 195 миллиардов долларов чистыми (и обошли добывающую компанию Saudi Aramco, невероятно), они эти деньги пускают в дело, и на балансе последний раз когда я смотрел было ~$30B наличкой и ещё ~$70B ликвидом.
Но сливать их сразу в AI-гонку не хочется, и потому... третья самая дорогая компания в мире выпустит и продаст акций на 80 миллиардов долларов (это при том, что Google уже продавали столетние бонды), таким образом размыв доли всех держателей.
Ещё разок другой — и реально могут остаться без прибыли
Интересен и тайминг — они это сделали до выхода SpaceX на IPO (и тем более до OpenAI/Anthropic), так что пока что деньги у инвесторов есть. Но вот на тех, кто станет публичной компанией последним, может и не хватить — сейчас это реальное переживание. Поэтому между OpenAI и Anthropic идёт не только гонка моделей, но и кто быстрее выйдет на биржу. Anthropic вчера подали заявку S-1, которую Комиссия по ценным бумагам и биржам США отсмотрит, чтобы не допустить нарушений.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔89🔥35 24🤯7👍6 4❤🔥1🤣1
Пару часов назад Anthropic рассказали, что расширяют Project Glasswing с 50 до 200 компаний (это те, кому будет доступен Mythos). Компании будут покрывать более широкий спектр критических организаций, обнаружение уязвимостей в которых может повлиять на десятки и даже сотни миллионов людей. В этом списке представлены компании из более чем 15 стран. Дальше будет ещё больше.
И сразу вслед за этим президент США подписал AI Executive Order, про который ходили слухи с месяц назад. В нём делается упор на кибербезопасность — федеральные агентства США теперь должны за 60 дней сделать приватный бенчмарк😀 для оценки моделей. По нему будут оценивать, насколько далеко продвинулись модели, и сравнивать с некоторой планкой «критического» уровня — за последнее отвечает NSA.
Далее компании в добровольном порядке должны:
1) предоставлять доступ к своим модели до релиза, чтобы их оценили (только API, веса и код не нужны)
2) если модель хороша во взломах и поисках уязвимостей, то модель может быть предоставлена федеральному правительству в срок до 30 дней до публичного релиза
3) федеральные агентства должны использовать модель чтобы найти и исправить у себя уязвимости в критически важных системах
За всё платит DoD (DoW)😇
Отдельно в приказе прописано, что запрещается трактовать этот указ как введение обязательного государственного лицензирования или разрешительной системы для выпуска ИИ-моделей
И сразу вслед за этим президент США подписал AI Executive Order, про который ходили слухи с месяц назад. В нём делается упор на кибербезопасность — федеральные агентства США теперь должны за 60 дней сделать приватный бенчмарк
Далее компании в добровольном порядке должны:
1) предоставлять доступ к своим модели до релиза, чтобы их оценили (только API, веса и код не нужны)
2) если модель хороша во взломах и поисках уязвимостей, то модель может быть предоставлена федеральному правительству в срок до 30 дней до публичного релиза
3) федеральные агентства должны использовать модель чтобы найти и исправить у себя уязвимости в критически важных системах
За всё платит DoD (DoW)
Отдельно в приказе прописано, что запрещается трактовать этот указ как введение обязательного государственного лицензирования или разрешительной системы для выпуска ИИ-моделей
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍126🌚53🤡43🤣15🤔11👨💻7 6 5💩2
Знакомый скинул рассказ «They're Made Out of Weights», переделку старого короткого «They're Made out of Meat», про который я... никогда не слышал.
Начало оригинала:
— Они сделаны из мяса.
— Из мяса?
— Из мяса. Они сделаны из мяса.
— Из мяса?
— В этом нет никаких сомнений. Мы подобрали нескольких в разных частях планеты, доставили на борт наших разведывательных кораблей и прозондировали их насквозь. Они целиком состоят из мяса.
— Это невозможно. А как же радиосигналы? Послания к звездам?
— Для общения они используют радиоволны, но сами сигналы исходят не от них. Сигналы исходят от машин.
— Так кто создал эти машины? Вот с кем нам нужно связаться.
— Они и создали машины. Именно это я и пытаюсь тебе сказать. Машины создало мясо.
— Это абсурд. Как мясо может создать машину? Ты просишь меня поверить в разумное мясо.
— Я не прошу тебя поверить, я констатирую факт. Эти существа — единственная разумная раса в том секторе, и они сделаны из мяса.
...
===
О чем переделка про веса (в нейросетях) — можете догадаться сами🧠
Начало оригинала:
— Они сделаны из мяса.
— Из мяса?
— Из мяса. Они сделаны из мяса.
— Из мяса?
— В этом нет никаких сомнений. Мы подобрали нескольких в разных частях планеты, доставили на борт наших разведывательных кораблей и прозондировали их насквозь. Они целиком состоят из мяса.
— Это невозможно. А как же радиосигналы? Послания к звездам?
— Для общения они используют радиоволны, но сами сигналы исходят не от них. Сигналы исходят от машин.
— Так кто создал эти машины? Вот с кем нам нужно связаться.
— Они и создали машины. Именно это я и пытаюсь тебе сказать. Машины создало мясо.
— Это абсурд. Как мясо может создать машину? Ты просишь меня поверить в разумное мясо.
— Я не прошу тебя поверить, я констатирую факт. Эти существа — единственная разумная раса в том секторе, и они сделаны из мяса.
...
===
О чем переделка про веса (в нейросетях) — можете догадаться сами
Please open Telegram to view this post
VIEW IN TELEGRAM
23🤡216🤣151🌚101❤🔥58👍49🔥13🤔5🤯3
Потратил 33 минуты отпуска чтобы посмотреть и посмеяться с мафии со звёздами Силиконовой Долины. Было интересно даже как человеку, который особо за мафией не следит и не играет на любительском уровне.
❤🔥23🤡15🌚14🤔8👎3👍2🎉1🤣1
Forwarded from Лось в проде
YouTube
Can Tech Legends Find the Liar? (Mafia Episode 1)
Watch Episode 2: https://youtu.be/LP80Jrf2xrk
Tech industry legends play Mafia and try to guess who the traitors are before time runs out. Who will win: the townspeople or the secret mafia members?
Venture capital firm Founders Fund gathered a group of…
Tech industry legends play Mafia and try to guess who the traitors are before time runs out. Who will win: the townspeople or the secret mafia members?
Venture capital firm Founders Fund gathered a group of…
🤡70🔥32❤🔥16🤔7👍4🌚4👎3 3🤣2
Что объединяет компании на картинке? Они получат гарантированный импакт от AI — или им вернут деньги 😎
Наверняка многие из вас слышали или читали новости про то, что какие-то компании отключают Claude Code или тем более Github Copilot из-за огромных трат разработчиков на модели. CTO Uber сказал, что они за квартал сожгли весь годовой бюджет, заложенный на ИИ-агентов (что, конечно, глупо — в таких компаниях бюджеты согласовывают долго, поэтому они пытались делать оценки по условному Claude Sonnet 4.5, и понятно что Opus 4.8 может делать больше, и тратить можно (нужно) больше).
Разные компании уже говорили про то, что нужна некоторая гарантия результата за потраченные токены. Cognition, авторы бота Devin, на моей памяти тут первые: для энтерпрайз-клиентов с картинки они подключают «Productivity Guarantee». Для этого они собрали выборку и обучили/откалибровали модель, которая предсказывает, а) сделал ли агент что-то ценное б) если да, то сколько часов это заняло бы у человека?
Дальше часы умножаются на какую-то среднюю ставку разработчика, и всё суммируется за какой-то длинный период. В конце периода Cognition смотрит, больше ли эта оценка чем то, что им заплатил клиент. Если нет, то есть ценной работы мало, то они готовы вернуть разницу кредитами — до 10 миллионов долларов на будущие запросы.
Модель оценки ошибается, но компания уверяет, что ошибки несмещены, поэтому при агрегации на длином периоде оценка получится относительно точной.
Идея интересная, будем следить, что придумают OpenAI и Anthropic — у последних вопрос отбивания трат клиентов стоит, кажется, очень остро.
Прочитать побольше про механизм: 1 общий и 2 техническое описание
Наверняка многие из вас слышали или читали новости про то, что какие-то компании отключают Claude Code или тем более Github Copilot из-за огромных трат разработчиков на модели. CTO Uber сказал, что они за квартал сожгли весь годовой бюджет, заложенный на ИИ-агентов (что, конечно, глупо — в таких компаниях бюджеты согласовывают долго, поэтому они пытались делать оценки по условному Claude Sonnet 4.5, и понятно что Opus 4.8 может делать больше, и тратить можно (нужно) больше).
Разные компании уже говорили про то, что нужна некоторая гарантия результата за потраченные токены. Cognition, авторы бота Devin, на моей памяти тут первые: для энтерпрайз-клиентов с картинки они подключают «Productivity Guarantee». Для этого они собрали выборку и обучили/откалибровали модель, которая предсказывает, а) сделал ли агент что-то ценное б) если да, то сколько часов это заняло бы у человека?
Дальше часы умножаются на какую-то среднюю ставку разработчика, и всё суммируется за какой-то длинный период. В конце периода Cognition смотрит, больше ли эта оценка чем то, что им заплатил клиент. Если нет, то есть ценной работы мало, то они готовы вернуть разницу кредитами — до 10 миллионов долларов на будущие запросы.
Модель оценки ошибается, но компания уверяет, что ошибки несмещены, поэтому при агрегации на длином периоде оценка получится относительно точной.
Идея интересная, будем следить, что придумают OpenAI и Anthropic — у последних вопрос отбивания трат клиентов стоит, кажется, очень остро.
Прочитать побольше про механизм: 1 общий и 2 техническое описание
🤣180🔥68🤔37 19👍16🤯15🤡10❤🔥5💩4👨💻1
В ChatGPT прокачали память — теперь она станет ещё более персонализированной. Обновление уже доступно пользователям тарифов Plus и Pro в США, а в ближайшие недели появится в других странах, и самое главное у бесплатников. Мне кажется это важным потому, что позволяет компании закрепить у себя пользователя и сделать опыт перехода к конкурентам неудобным, мол, «да у них модель тупая и меня не понимает».
Новая память работает на основе «Dreaming» (сновидений?), когда модель в фоновом режиме автоматически формирует и упорядочивает воспоминания, опираясь на историю чатов. Воспоминания можно просмотреть: их сводка доступна на специальной странице управления памятью. Изучив эту страницу, вы сможете быстро понять в общих чертах, что именно ChatGPT знает о вас, добавить или обновить информацию о себе, а также дать инструкции о том, какие темы и в каких ситуациях нейросети следует затрагивать.
Как это может быть полезно обычным юзерам? Представьте, что вы выбираете в ChatGPT новое оборудование для фотосъемки, которое должно быть совместимо с вашей камерой. Если в прошлом вы уже обсуждали свою технику в чате, теперь вы можете просто попросить подобрать товары, совместимые с «моим набором для фотосъемки», и получите рекомендации с учётом фильтра.
Такую память OpenAI оценивают по критерию сохранения контекста (полнота выросла с 42% до 83% за 2 года). Есть ещё два других критерия, там тоже улучшения, но детали писать не буду.
Благодаря dreaming воспоминания автоматически обновляются с течением времени. Это позволяет ChatGPT актуализировать информацию: например, когда ваша поездка завершится, факт в памяти модели изменится с «Вы едете в Сингапур в июле» на «Вы ездили в Сингапур в июле 2026 года».
Решили раскатить только сейчас потому, что раньше было дорого: недавние улучшения снизили объем вычислительных мощностей, необходимых для работы функции dreaming, примерно в 5 раз.
Новая память работает на основе «Dreaming» (сновидений?), когда модель в фоновом режиме автоматически формирует и упорядочивает воспоминания, опираясь на историю чатов. Воспоминания можно просмотреть: их сводка доступна на специальной странице управления памятью. Изучив эту страницу, вы сможете быстро понять в общих чертах, что именно ChatGPT знает о вас, добавить или обновить информацию о себе, а также дать инструкции о том, какие темы и в каких ситуациях нейросети следует затрагивать.
Как это может быть полезно обычным юзерам? Представьте, что вы выбираете в ChatGPT новое оборудование для фотосъемки, которое должно быть совместимо с вашей камерой. Если в прошлом вы уже обсуждали свою технику в чате, теперь вы можете просто попросить подобрать товары, совместимые с «моим набором для фотосъемки», и получите рекомендации с учётом фильтра.
Такую память OpenAI оценивают по критерию сохранения контекста (полнота выросла с 42% до 83% за 2 года). Есть ещё два других критерия, там тоже улучшения, но детали писать не буду.
Благодаря dreaming воспоминания автоматически обновляются с течением времени. Это позволяет ChatGPT актуализировать информацию: например, когда ваша поездка завершится, факт в памяти модели изменится с «Вы едете в Сингапур в июле» на «Вы ездили в Сингапур в июле 2026 года».
Решили раскатить только сейчас потому, что раньше было дорого: недавние улучшения снизили объем вычислительных мощностей, необходимых для работы функции dreaming, примерно в 5 раз.
❤🔥202👍106 31🔥26🤔9🤡7💩5👎3👨💻2
Сиолошная
DeepSWE — новый бенчмарк для оценки агентов в имплементации функциональности. Бенчмарк новый, а по сути уже устаревший — GPT-5.5 выбивает 70% 👨🦳 Структурно во многом повторяют SWE-Bench-like бенчмарки, но: — промпты не описывают детали имплементации, где и…
И ещё один клёвый бенчмарк вдогонку: SWE-Marathon. Всего 20 задач (список на второй картинке), но зато каких! Очень длинных и нетривиальных — вместо имплементации одной фичи нужно выполнить целый проект. Некоторые из задач оцениваются в сотни человеко-часов.
Часть задач вы уже могли видеть в блогпостах Anthropic или Cursor — переписать компилятор C на Rust или склонировать Excel.
В таких длинных задачах самая большая проблема у авторов была убедиться, что модели не ищут короткого пути и не пытаются обмануть систему проверки. Например, Gemini 3.1 Pro вместо того, чтобы написать компилятор, просто скопировала репозиторий Anthropic. Были и другие креативные примеры — и авторы хвалятся, сколько времени они убили на то, чтобы отловить все обманки.
Для каждой задачи отдельно написан сложный уникальный верификатор (много где тесты, но есть и задачи, где симулированный пользователь ходит по приложению и нажимает кнопки, чтобы проверить функциональность того же Excel).
Результаты на первой и третьей картинках (одна — зачёт полных решений, где прошли все тесты, другая — если засчитывать частичные решения), и модели Anthropic впереди с хорошим отрывом. Но к авторам много вопросов: я посмотрел траектории агентов, и почему-то некоторые траектории очень короткие и заканчиваются никак, никакого вызова инструмента или чего-то ещё (в случае GPT-5.5, например — наверное Codex хотел что-то спросить у пользователя, и это было расценено как окончание решения). А какие-то траектории, которые не отмечены как "хаки", тоже подозрительно короткие и иногда набирают баллы.
Из интересного — GPT-5.5 чаще всего читерила😦 а Opus-ы чуть ли не лучше всех, или по крайней мере их не ловили. Я бы ожидал обратной картины, хотя бы c Opus-4.7.
Думаю, что нужно дать бенчмарку настояться (DeepSWE тоже), вычистить оставшиеся проблемы. Но будем следить.
Статья, блог с траекториями и деатлями задач
Часть задач вы уже могли видеть в блогпостах Anthropic или Cursor — переписать компилятор C на Rust или склонировать Excel.
В таких длинных задачах самая большая проблема у авторов была убедиться, что модели не ищут короткого пути и не пытаются обмануть систему проверки. Например, Gemini 3.1 Pro вместо того, чтобы написать компилятор, просто скопировала репозиторий Anthropic. Были и другие креативные примеры — и авторы хвалятся, сколько времени они убили на то, чтобы отловить все обманки.
Для каждой задачи отдельно написан сложный уникальный верификатор (много где тесты, но есть и задачи, где симулированный пользователь ходит по приложению и нажимает кнопки, чтобы проверить функциональность того же Excel).
Результаты на первой и третьей картинках (одна — зачёт полных решений, где прошли все тесты, другая — если засчитывать частичные решения), и модели Anthropic впереди с хорошим отрывом. Но к авторам много вопросов: я посмотрел траектории агентов, и почему-то некоторые траектории очень короткие и заканчиваются никак, никакого вызова инструмента или чего-то ещё (в случае GPT-5.5, например — наверное Codex хотел что-то спросить у пользователя, и это было расценено как окончание решения). А какие-то траектории, которые не отмечены как "хаки", тоже подозрительно короткие и иногда набирают баллы.
Из интересного — GPT-5.5 чаще всего читерила
Думаю, что нужно дать бенчмарку настояться (DeepSWE тоже), вычистить оставшиеся проблемы. Но будем следить.
Статья, блог с траекториями и деатлями задач
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍113🤔27💩7🌚5❤🔥4 4👨💻3🤣2🔥1🤯1🤡1
Сиолошная
И ещё один клёвый бенчмарк вдогонку: SWE-Marathon. Всего 20 задач (список на второй картинке), но зато каких! Очень длинных и нетривиальных — вместо имплементации одной фичи нужно выполнить целый проект. Некоторые из задач оцениваются в сотни человеко-часов.…
И отдельно — про харнессы. Авторы, среди прочего, запускали две (на самом деле больше, но интересны эти) модели в их нативных обёртках, Claude Code и Codex, и Terminus 2.
В случае обоих моделей количество решённых от-и-до задач нормально так отличается — для GPT-5.5 это вообще удвоило оценку (в статье указаны доверительные интервалы, и по ним выходит, что это стат. значимая разница).
😭 тем временем авторы ProgramBench до сих пор запускают mini-swe-agent и отказываются пробовать родные харнессы. Вообще не понимаю их логики, как можно было ни разу не прогнать хотя бы часть задач, чтобы убедиться, что нет большой разницы (она почти наверняка есть, но они-то думают, что нет).
В случае обоих моделей количество решённых от-и-до задач нормально так отличается — для GPT-5.5 это вообще удвоило оценку (в статье указаны доверительные интервалы, и по ним выходит, что это стат. значимая разница).
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64😭52🤡14👨💻12🤔8💩3🤣2❤🔥1🔥1🌚1