Forwarded from Техасский Вестник
This media is not supported in your browser
VIEW IN TELEGRAM
Первое видео Starship из космоса со стороны.
🔥188❤🔥41🤯13💩12🎉10👍7 4🤡3🤣2
BLASST: Dynamic BLocked Attention Sparsity via Softmax Thresholding — лучшая статья MLSys '26.
Классная идея ускорения расчёта attention в трансформерах, заявляют большие цифры, около 50% ускорения, но на замере всей модели, а не отдельного блока, выходит ~10%. В основном потому, что в целом всё сильно заоптимизировано, и на безрыбье и 10% — много.
В чём идея: обычный FlashAttention при обработке последовательности распиливает её на блоки (по KV) и начинает обработку слева направо. Поскольку в Attention есть softmax, а значит и экспонента, то существует риск переполнения, когда степенью становится очень большое число — поэтому применяется классический трюк вычитания максимума (Softmax инвариантен к сдвигу). Но если FlashAttention работает по блокам, то как узнать максимум заранее?
Можно предварительно пройтись по всем токенам и посчитать max(), но это медленно. Ещё с 2018-го года известен трюк онлайн-подсчёта, который использовал FlashAttention 1. Его смысл в том, что нам не нужно знать максимум сразу — мы помним текущий максимум и для каждого нового блока сравниваем его и локальный максимум блока. Если они отличаются — нормализацию надо пересчитать, в том числе задним числом для предыдущих блоков. Таким образом обработав последний блок в последовательности все предыдущие блоки уже скорректированы, и расчёт Attention становится точным.
FlashAttention 4 предложил новую идею: делать коррекцию предыдущих блоков не каждый раз, когда встречается новый максимум, а только тогда, когда есть угроза потери точности вычислений из-за переполнения. Но при этом все вычисления всё равно так или иначе производятся по честному, никакие расчёты не выкидываются, и Attention получается математически точным.
BLASST предлагает идти дальше: если в блоке максимум сильно меньше, чем посчитанный по предыдущим блокам, то его полностью выбрасывают. Value-векторы токенов этого блока вообще не участвуют в вычислениях. Так можно сделать потому, что если максимум (то есть самые «важные» токены) маленький, то получается, что ничего важного в блоке и не было.
Это изображено на первой картинке — есть 6 блоков, первый всегда обрабатывается, а некоторые последующие пропускаются.
Авторы показывают, что можно выкидывать чуть ли не 50-60% блоков (то есть примерно столько же токенов в последовательности) и при этом почти не терять в качестве — до 1% на бенчмарках на длинный контекст. А в некоторых бенчмарках на рассуждения (AIME2024, GPQA) даже наблюдается маленький прирост качества, я бы сказал в рамках погрешности. Авторы объясняют это тем, что выкидывают токены, которые являются шумом и не важны для текущего токена. Логика в этом есть, в целом все sparse attention на это опираются.
Все изменения можно делать без дообучения моделей, просто поменяв кернелы для инференса. Но также показывают, что если модель немного поучить с новыми кернелами, чтобы она привыкла, что некоторые блоки выкидываются, то качество подрастает.
Один из плюсов подхода — он совместим со множеством других оптимизаций, включая DeepSeek MLA (правда статья вышла до v4, поэтому MLA уже не так актуален).
А в серьезные минусы статьи запишу, что как-то поскупились на оценки больших моделей на реально тяжелых бенчмарках с длинным контекстом — работу написали исследователи из Nvidia, уж у кого, а у них мощности точно были. В аппендиксе тестируют Llama 3.1 70b на одном датасете и DeepSeek R1 на трёх, но не long context — и для обеих моделей не пишут про ускорение👨🦳
Классная идея ускорения расчёта attention в трансформерах, заявляют большие цифры, около 50% ускорения, но на замере всей модели, а не отдельного блока, выходит ~10%. В основном потому, что в целом всё сильно заоптимизировано, и на безрыбье и 10% — много.
В чём идея: обычный FlashAttention при обработке последовательности распиливает её на блоки (по KV) и начинает обработку слева направо. Поскольку в Attention есть softmax, а значит и экспонента, то существует риск переполнения, когда степенью становится очень большое число — поэтому применяется классический трюк вычитания максимума (Softmax инвариантен к сдвигу). Но если FlashAttention работает по блокам, то как узнать максимум заранее?
Можно предварительно пройтись по всем токенам и посчитать max(), но это медленно. Ещё с 2018-го года известен трюк онлайн-подсчёта, который использовал FlashAttention 1. Его смысл в том, что нам не нужно знать максимум сразу — мы помним текущий максимум и для каждого нового блока сравниваем его и локальный максимум блока. Если они отличаются — нормализацию надо пересчитать, в том числе задним числом для предыдущих блоков. Таким образом обработав последний блок в последовательности все предыдущие блоки уже скорректированы, и расчёт Attention становится точным.
FlashAttention 4 предложил новую идею: делать коррекцию предыдущих блоков не каждый раз, когда встречается новый максимум, а только тогда, когда есть угроза потери точности вычислений из-за переполнения. Но при этом все вычисления всё равно так или иначе производятся по честному, никакие расчёты не выкидываются, и Attention получается математически точным.
BLASST предлагает идти дальше: если в блоке максимум сильно меньше, чем посчитанный по предыдущим блокам, то его полностью выбрасывают. Value-векторы токенов этого блока вообще не участвуют в вычислениях. Так можно сделать потому, что если максимум (то есть самые «важные» токены) маленький, то получается, что ничего важного в блоке и не было.
Это изображено на первой картинке — есть 6 блоков, первый всегда обрабатывается, а некоторые последующие пропускаются.
Авторы показывают, что можно выкидывать чуть ли не 50-60% блоков (то есть примерно столько же токенов в последовательности) и при этом почти не терять в качестве — до 1% на бенчмарках на длинный контекст. А в некоторых бенчмарках на рассуждения (AIME2024, GPQA) даже наблюдается маленький прирост качества, я бы сказал в рамках погрешности. Авторы объясняют это тем, что выкидывают токены, которые являются шумом и не важны для текущего токена. Логика в этом есть, в целом все sparse attention на это опираются.
Все изменения можно делать без дообучения моделей, просто поменяв кернелы для инференса. Но также показывают, что если модель немного поучить с новыми кернелами, чтобы она привыкла, что некоторые блоки выкидываются, то качество подрастает.
Один из плюсов подхода — он совместим со множеством других оптимизаций, включая DeepSeek MLA (правда статья вышла до v4, поэтому MLA уже не так актуален).
А в серьезные минусы статьи запишу, что как-то поскупились на оценки больших моделей на реально тяжелых бенчмарках с длинным контекстом — работу написали исследователи из Nvidia, уж у кого, а у них мощности точно были. В аппендиксе тестируют Llama 3.1 70b на одном датасете и DeepSeek R1 на трёх, но не long context — и для обеих моделей не пишут про ускорение
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍104❤🔥25👨💻17 3🔥1💩1
Forwarded from БлоGнот
Китай распространил режим выездных согласований на топ-специалистов по AI в частных компаниях, включая Alibaba и DeepSeek. По данным источников Bloomberg, основателям стартапов, исследователям и руководителям, признанным стратегически значимыми, теперь требуется одобрение властей перед поездками за рубеж. Прежде подобная практика — вплоть до изъятия паспортов — применялась к чиновникам, ядерщикам и менеджменту госкомпаний; распространение её на частный сектор ранее было нехарактерно. Списки формируются не по уровню должности, а по индивидуальной оценке критичности человека для страны.
Все "новое" на самом деле просто старое, о котором не в курсе новые поколения. Всякие особенности на передвижение людей, имевших или могущих иметь отношение к "режимным" вопросам, не пропадали никогда на протяжении последних лет 80. А уж если кто помнит советские практики в этом плане, то и вообще удивляться не будет.
https://www.bloomberg.com/news/articles/2026-05-26/china-expands-travel-curbs-to-top-ai-talent-at-private-firms?accessToken=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJzb3VyY2UiOiJTdWJzY3JpYmVyR2lmdGVkQXJ0aWNsZSIsImlhdCI6MTc3OTgwMDQwMCwiZXhwIjoxNzgwNDA1MjAwLCJhcnRpY2xlSWQiOiJURjBEMzhLSzNOWUEwMCIsImJjb25uZWN0SWQiOiJDODcyMDJCNUE5RkU0Q0NBOTBFMTgzMDUxNkYxNTlGRSJ9.HzM3tbnW8AlvQEje6EVlRrl7NLsqCcxkVWRx1-zpTqI
Все "новое" на самом деле просто старое, о котором не в курсе новые поколения. Всякие особенности на передвижение людей, имевших или могущих иметь отношение к "режимным" вопросам, не пропадали никогда на протяжении последних лет 80. А уж если кто помнит советские практики в этом плане, то и вообще удивляться не будет.
https://www.bloomberg.com/news/articles/2026-05-26/china-expands-travel-curbs-to-top-ai-talent-at-private-firms?accessToken=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJzb3VyY2UiOiJTdWJzY3JpYmVyR2lmdGVkQXJ0aWNsZSIsImlhdCI6MTc3OTgwMDQwMCwiZXhwIjoxNzgwNDA1MjAwLCJhcnRpY2xlSWQiOiJURjBEMzhLSzNOWUEwMCIsImJjb25uZWN0SWQiOiJDODcyMDJCNUE5RkU0Q0NBOTBFMTgzMDUxNkYxNTlGRSJ9.HzM3tbnW8AlvQEje6EVlRrl7NLsqCcxkVWRx1-zpTqI
Bloomberg.com
China Expands Travel Curbs to Top AI Talent at Private Firms
China is restricting overseas travel for top AI professionals in private firms such as Alibaba Group Holding Ltd. and DeepSeek, suggesting an escalation in measures intended to safeguard its technology and catch up to the US in a pivotal sphere.
🌚141👍39💔19😭18 14👨💻9🤔7🔥5🤯4🤣4❤🔥1
DeepSWE — новый бенчмарк для оценки агентов в имплементации функциональности. Бенчмарк новый, а по сути уже устаревший — GPT-5.5 выбивает 70% 👨🦳 Структурно во многом повторяют SWE-Bench-like бенчмарки, но:
— промпты не описывают детали имплементации, где и что
— верификация сделана чуть более чисто, тесты направлены на наблюдаемое поведение, а не конкретную имплементацию
— в среднем требуется добавить 668 строк кода (против 100-200 у многих предыдущих бенчмарков)
— задачи основаны на публичных репозиториях, но не на коде, который был опубликован. Например, авторы брали незакрытую проблему, писали решение, и против него уже проверяют LLM.
Результаты на первой картинке. Важный астериск — использовали😀 )
3 и 4 картинки сравнивают разные модели по скорости работы (токены и время) и цене. Например, с Gemini 3.5 Flash наблюдается паттерн, который отметили многие — модель как бы работает быстрее, но ей и требуется гораздо больше токенов, потому выходит по цене так же, как... GPT-5.5 или Opus 4.6😂 (и дороже Gemini 3.1 Pro). Но хоть оценка не настолько плоха.
Тут как ни посмотри, модели OpenAI впереди — быстрее, дешевле, лучше. Скорее всего причина в том, что их пайплайн подготовки задач гораздо более похож на тот, что использовали авторы DeepSWE. Но с другой стороны не думаю, что это объясняет прям всю разницу — уже вышло много бенчей, где 5.5 действительно на уровне или обходит Claude.
На этом авторы не остановились, а начали анализировать результаты и траектории — для этого использовали LLM-агента, чтобы разметить паттерны ошибок (чтобы не пропускать как будто работающие, но плохие решения). Самые частые проблемы — это игнорирование части требований (GPT-5.5 опять хорошо выделяется следованием инструкций), ошибки интеграции и регрессия, когда из-за новой функциональности перестает работать старая.
Для всех типов ошибок выложены траектории-примеры, очень рекомендую перейти на сайт и почитать хотя бы парочку; мне было интересно.
Вот Блогпост
И ещё авторы сделали пару наблюдений:
— Claude плохо запоминает многосоставные промпты. Часто просят сделать A и Б, модель делает А, но про Б забывает.
— сильные модели пишут тесты даже когда их об этом не просят. Особенно заметно в GPT (любители smoke tests тут? Наверняка заметили) и Claude, в 80% задач. Слабым ещё предстоит это освоить, глядишь, скор подрастет.
— промпты не описывают детали имплементации, где и что
— верификация сделана чуть более чисто, тесты направлены на наблюдаемое поведение, а не конкретную имплементацию
— в среднем требуется добавить 668 строк кода (против 100-200 у многих предыдущих бенчмарков)
— задачи основаны на публичных репозиториях, но не на коде, который был опубликован. Например, авторы брали незакрытую проблему, писали решение, и против него уже проверяют LLM.
Результаты на первой картинке. Важный астериск — использовали
mini-swe-agent, а не родные инструменты моделей, но на 10 случайно выбранных задачах показали, что просадки в качестве нет (на 10 примерах доверительный интервал поди +-4 3 и 4 картинки сравнивают разные модели по скорости работы (токены и время) и цене. Например, с Gemini 3.5 Flash наблюдается паттерн, который отметили многие — модель как бы работает быстрее, но ей и требуется гораздо больше токенов, потому выходит по цене так же, как... GPT-5.5 или Opus 4.6
Тут как ни посмотри, модели OpenAI впереди — быстрее, дешевле, лучше. Скорее всего причина в том, что их пайплайн подготовки задач гораздо более похож на тот, что использовали авторы DeepSWE. Но с другой стороны не думаю, что это объясняет прям всю разницу — уже вышло много бенчей, где 5.5 действительно на уровне или обходит Claude.
На этом авторы не остановились, а начали анализировать результаты и траектории — для этого использовали LLM-агента, чтобы разметить паттерны ошибок (чтобы не пропускать как будто работающие, но плохие решения). Самые частые проблемы — это игнорирование части требований (GPT-5.5 опять хорошо выделяется следованием инструкций), ошибки интеграции и регрессия, когда из-за новой функциональности перестает работать старая.
Для всех типов ошибок выложены траектории-примеры, очень рекомендую перейти на сайт и почитать хотя бы парочку; мне было интересно.
Вот Блогпост
И ещё авторы сделали пару наблюдений:
— Claude плохо запоминает многосоставные промпты. Часто просят сделать A и Б, модель делает А, но про Б забывает.
— сильные модели пишут тесты даже когда их об этом не просят. Особенно заметно в GPT (любители smoke tests тут? Наверняка заметили) и Claude, в 80% задач. Слабым ещё предстоит это освоить, глядишь, скор подрастет.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍106🔥17🌚15🤔8🤡7 7 7💩5👨💻4❤🔥1💔1
Новый опус: https://www.anthropic.com/news/claude-opus-4-8
1) цена та же
2) сделали гранулярную разбивку длины рассуждений, как у ChatGPT
3) fast режим, ускоряющий генерацию в 2.5 раза, теперь в 3 раза дешевле, чем для предыдущих моделей. Получается было в 6 раз дороже, сейчас в 2 — надо брать.
4) «Одним из наиболее заметных улучшений в Opus 4.8 является его честность» — модель будет врать поменьше (наверное)
5) «Мы планируем выпустить новый класс моделей с ещё более высоким уровнем интеллекта, чем у Opus» — ждём «в ближайшие недели»
1) цена та же
2) сделали гранулярную разбивку длины рассуждений, как у ChatGPT
3) fast режим, ускоряющий генерацию в 2.5 раза, теперь в 3 раза дешевле, чем для предыдущих моделей. Получается было в 6 раз дороже, сейчас в 2 — надо брать.
4) «Одним из наиболее заметных улучшений в Opus 4.8 является его честность» — модель будет врать поменьше (наверное)
5) «Мы планируем выпустить новый класс моделей с ещё более высоким уровнем интеллекта, чем у Opus» — ждём «в ближайшие недели»
👍210🔥84❤🔥32🤡13🌚10🤣8🤔3👨💻3🤯2🎉1💩1
Сиолошная
сделали гранулярную разбивку длины рассуждений, как у ChatGPT
Вот так выглядит на SWE-bench Pro
Обратите внимание, что в Claude Code по умолчанию стоит high, а не x-high или max.
Обратите внимание, что в Claude Code по умолчанию стоит high, а не x-high или max.
4🔥113👍28🤔9🌚5👨💻3
Anthropic ещё сказали про сущий пустяк — привлекли 65 миллиардов долларов при оценке 900, и ARR вышел на невероятные 47 миллиардов долларов (выручка за год, если спрос никак не поменяется по отношению к последнему месяцу).
Оооочень хочется узнать ARR OpenAI👀 почти наверняка они отстают, но на сколько?
Оооочень хочется узнать ARR OpenAI
Please open Telegram to view this post
VIEW IN TELEGRAM
1🎉202🔥55🌚39 17🤯12👍9🤡8🤔7 3👎1🤣1
Кроме новой модели и раунда инвестиций Anthropic представили можно сказать следующий шаг в агентской разработке — dynamic workflows. Именно с помощью этой фичи был осуществлен перевоз Bun с Zig на Rust.
Когда запускается dynamic workflows, Claude создает динамический план на основе запроса, разбивает на подзадачи и распределяет работу между параллельно работающими агентами. Результаты проверяются перед их сливнием, и в итоге вы получаете единый готовый ответ. Одни агенты решают отдельные независимые проблемы, другие агенты пытаются найти ошибки в полученных результатах, и процесс продолжается до тех пор, пока второй этап не вернет пустой результат.
Dynamic workflows созданы для длительной распараллеливаемой работы, которая может продолжаться часами и днями, выполняя самые сложные инженерные задачи, которые раньше занимали бы недели. Прогресс сохраняется по мере выполнения, поэтому прерванная задача возобновляется с того места, где остановилась, вместо того, чтобы начинаться заново.
Пример как именно это работало с Bun:
Один workflow определил правильный lifetime (время жизни) в Rust для каждого поля структуры в кодовой базе Zig (это важный атрибут языка). Следующий workflow переписал каждый файл .rs как идентичный порт его .zig-аналога, при этом сотни агентов работали параллельно, а каждый файл проверяли два ревьюера. Затем цикл исправлений прогонял сборку и набор тестов до тех пор, пока они не начали выполняться без единой ошибки. После того как весь код был объединен, отдельный workflow устранил лишнее копирование данных и открыл PR для каждого случая на финальное ревью — которое тоже может быть выполнено агентами.
Как вы понимаете, жрёт это всё немало токенов. Число кейсов для применения ограничено — порт с одного стека на другой является самым ярким, так как у агентов есть критерии.
Когда запускается dynamic workflows, Claude создает динамический план на основе запроса, разбивает на подзадачи и распределяет работу между параллельно работающими агентами. Результаты проверяются перед их сливнием, и в итоге вы получаете единый готовый ответ. Одни агенты решают отдельные независимые проблемы, другие агенты пытаются найти ошибки в полученных результатах, и процесс продолжается до тех пор, пока второй этап не вернет пустой результат.
Dynamic workflows созданы для длительной распараллеливаемой работы, которая может продолжаться часами и днями, выполняя самые сложные инженерные задачи, которые раньше занимали бы недели. Прогресс сохраняется по мере выполнения, поэтому прерванная задача возобновляется с того места, где остановилась, вместо того, чтобы начинаться заново.
Пример как именно это работало с Bun:
Один workflow определил правильный lifetime (время жизни) в Rust для каждого поля структуры в кодовой базе Zig (это важный атрибут языка). Следующий workflow переписал каждый файл .rs как идентичный порт его .zig-аналога, при этом сотни агентов работали параллельно, а каждый файл проверяли два ревьюера. Затем цикл исправлений прогонял сборку и набор тестов до тех пор, пока они не начали выполняться без единой ошибки. После того как весь код был объединен, отдельный workflow устранил лишнее копирование данных и открыл PR для каждого случая на финальное ревью — которое тоже может быть выполнено агентами.
Как вы понимаете, жрёт это всё немало токенов. Число кейсов для применения ограничено — порт с одного стека на другой является самым ярким, так как у агентов есть критерии.
💩1.1K👍159❤🔥34🔥21 8🤔6🌚5🤡3👨💻1
Сиолошная
Кроме новой модели и раунда инвестиций Anthropic представили можно сказать следующий шаг в агентской разработке — dynamic workflows. Именно с помощью этой фичи был осуществлен перевоз Bun с Zig на Rust. Когда запускается dynamic workflows, Claude создает…
Пример того как выглядит workflow можно посмотреть вот в этом PR для Bun.
По сути это большой набор автосгенерированных .js-файлов, в которых просто хранится структура выполнения набора промптов. Там бквально есть циклы вида «для каждого файла запусти агента с таким промптом», проверки «ни один агент не вернул такой-то результат» или «2 агента-ревьюира отсмотрели и одобрили код».
Мне было бы куда интереснее посмотреть workflow для бизнес-задач, как CC распланирует работу над каким-нибудь отчётом или обзором, как будет ревьюить, переписывать, вычитывать, итд. Но примеров пока нет :(
По сути это большой набор автосгенерированных .js-файлов, в которых просто хранится структура выполнения набора промптов. Там бквально есть циклы вида «для каждого файла запусти агента с таким промптом», проверки «ни один агент не вернул такой-то результат» или «2 агента-ревьюира отсмотрели и одобрили код».
Мне было бы куда интереснее посмотреть workflow для бизнес-задач, как CC распланирует работу над каким-нибудь отчётом или обзором, как будет ревьюить, переписывать, вычитывать, итд. Но примеров пока нет :(
💩1.08K👍101🔥17🤔11🌚8👨💻6 5🤣4🤡2
Forwarded from Техасский Вестник
This media is not supported in your browser
VIEW IN TELEGRAM
Ракета New Glenn взорвалась на площадке во время огневых испытаний — это самый мощный взрыв на Мысе Канаверал за десятки лет.
Остаётся надеяться, что никто не пострадал, тк во время подробных испытаний проводят эвакуацию площадки.
Сам взрыв на площадке LC-36 произошёл во время дежурного прожига новой первой ступени, когда ракета не была полностью заправлена. Это был плановый этап перед запуском NG-4 на следующей неделе. Официального заявления от компании пока не было, и подробностей нет.
Но это конечно мощнейший удар по Blue Origin, тк этот стартовый комплекс с очень сложным ретрактором был единственной площадкой для запуска этой ракеты. Особенно на фоне неудачного прошлого пуска, анонсам по доставке нагрузки на Луну от NASA, и их амбициозным планам обогнать SpaceX в гонке за высадку во время Artemis 4.
Дежурное напоминание, что космос это сложно. Blue Origin Джеффа Безоса остаются топ2 компанией в отрасли, и второй с возвращаемым ускорителем орбитального класса.
UPD: никто не пострадал.
📸: NASASpaceFlight
Остаётся надеяться, что никто не пострадал, тк во время подробных испытаний проводят эвакуацию площадки.
Сам взрыв на площадке LC-36 произошёл во время дежурного прожига новой первой ступени, когда ракета не была полностью заправлена. Это был плановый этап перед запуском NG-4 на следующей неделе. Официального заявления от компании пока не было, и подробностей нет.
Но это конечно мощнейший удар по Blue Origin, тк этот стартовый комплекс с очень сложным ретрактором был единственной площадкой для запуска этой ракеты. Особенно на фоне неудачного прошлого пуска, анонсам по доставке нагрузки на Луну от NASA, и их амбициозным планам обогнать SpaceX в гонке за высадку во время Artemis 4.
Дежурное напоминание, что космос это сложно. Blue Origin Джеффа Безоса остаются топ2 компанией в отрасли, и второй с возвращаемым ускорителем орбитального класса.
UPD: никто не пострадал.
📸: NASASpaceFlight
😭222🔥61🌚27🤯23❤🔥11💩8🤣7 6👍5👨💻3
Ребята из Nebius обновили SWE-rebench после двухмесячного перерыва, добавив 110 новых задач. В отличии от многих других бенчей, наконец-то добавляют запуски в Codex и Claude Code. Просто писать «GPT-5.5 в очередной раз статистически значимо лучше моделей Anthropic» не хотелось, но Ибрагим, первый автор статьи, добавил немного аналитики по эффективности.
— GPT-5.5 medium выглядит заметно эффективнее, чем Opus 4.8 high (обе настройки — значения по умолчанию)
— Opus 4.6 -> 4.8 стал более оптимизирован: больше решенных задач, на 45% меньше токенов на задачу и примерно на 39% ниже стоимость решения задачи.
— Opus 4.8 high практически не превосходит Opus 4.7 high по качеству, но значительно дешевле в плане вычислительных ресурсов. Количество токенов на задачу снизилось с 1.5 млн до 1 млн, а среднее количество шагов уменьшилось с 44 до 34.
— Полезной метрикой является pass^5. Здесь мы засчитываем задачу только в том случае, если она была решена во всех 5 независимых запусках. GPT-5.5 vs GPT-5.4 – 51 vs 39 задач, модель гораздо меньше полагается на «везение», что один раз получилось решить, другой нет. Для Opus это число практически одинаково во всех версиях модели.
— опенсурс очень сильно отстаёт
— Composer 2.5 от Cursor на этом наборе задач выглядит очень перспективно за счёт цены (см. колонку) — в 4 раза дешевле GPT-5.5 medium
— ещё отмечу, что Claude получает гораздо больший прирост качества из-за использования родного скаффолда, в то время как GPT показывает +- тот же результат (хотя цена отличается в два раза, интересно почему).
В целом думаю честно сказать, что модели OpenAI с появлением 5.5 перешли в новую эпоху. Если давно в программировании они отставали от Anthropic, и потом +- сравнялись, то теперь они часто обходят конкурентов (особенно если закрыть глаза на фронтенд).
— GPT-5.5 medium выглядит заметно эффективнее, чем Opus 4.8 high (обе настройки — значения по умолчанию)
— Opus 4.6 -> 4.8 стал более оптимизирован: больше решенных задач, на 45% меньше токенов на задачу и примерно на 39% ниже стоимость решения задачи.
— Opus 4.8 high практически не превосходит Opus 4.7 high по качеству, но значительно дешевле в плане вычислительных ресурсов. Количество токенов на задачу снизилось с 1.5 млн до 1 млн, а среднее количество шагов уменьшилось с 44 до 34.
— Полезной метрикой является pass^5. Здесь мы засчитываем задачу только в том случае, если она была решена во всех 5 независимых запусках. GPT-5.5 vs GPT-5.4 – 51 vs 39 задач, модель гораздо меньше полагается на «везение», что один раз получилось решить, другой нет. Для Opus это число практически одинаково во всех версиях модели.
— опенсурс очень сильно отстаёт
— Composer 2.5 от Cursor на этом наборе задач выглядит очень перспективно за счёт цены (см. колонку) — в 4 раза дешевле GPT-5.5 medium
— ещё отмечу, что Claude получает гораздо больший прирост качества из-за использования родного скаффолда, в то время как GPT показывает +- тот же результат (хотя цена отличается в два раза, интересно почему).
В целом думаю честно сказать, что модели OpenAI с появлением 5.5 перешли в новую эпоху. Если давно в программировании они отставали от Anthropic, и потом +- сравнялись, то теперь они часто обходят конкурентов (особенно если закрыть глаза на фронтенд).
👍180🔥76❤🔥26 15🤡10🤔7 7🌚4🎉2💩2👨💻2
Finally, PC 2 — Nvidia и Microsoft «переизобрели» персональные компьютеры для эпохи AI (я не шучу, в анонсе так и пишут, и даже «новая глава»).
За анонсом стоит новая платформа для PC и ноутбуков на основе RTX Spark Superchip, состоящего из GPU, CPU и объединённой памяти. По сути это то же самое, что M-чипы в ноутбуках Apple в последних лет, и они тоже на архитектуре Arm, и за счёт этого очень энергоэффективны.
В ноутбуки, а позже и в персональные компьютеры будут ставить 128 ГигаБайт памяти, чтобы можно было запускать LLM на 120 миллиардов параметров (в FP4 — чипы как раз это поддерживают). Собственно, это и есть «новизна» персональных компьютеров — теперь у каждого будет персональный локальный ассистент наподобие OpenClaw или Hermes, получающий доступ к окнам приложений Windows. Обещают более плотную интеграцию и в частности продвинутые настройки безопасности для доступа к данным.
Глобально концепция понятная, но думаю, что первые годы будет немного буксовать (из-за тяжести интеграций + нужды сделать 1-2 итераций над чипом + адаптировать разработчиков), но потом, особенно как модели поумнеют и ассистенты станут продвинутыми — полетит, и виртуальный Джарвис станет нуждой каждого.
Интересно, как в эту картину вплетутся OpenAI и Anthropic с проприетарными моделями? В теории могу даже представить, что они могут предоставлять закрытые локальные модели, за которые придётся платить — а в остальном для вас это просто выбрать другой пунктик в меню и подождать, пока закончится загрузка.
За анонсом стоит новая платформа для PC и ноутбуков на основе RTX Spark Superchip, состоящего из GPU, CPU и объединённой памяти. По сути это то же самое, что M-чипы в ноутбуках Apple в последних лет, и они тоже на архитектуре Arm, и за счёт этого очень энергоэффективны.
В ноутбуки, а позже и в персональные компьютеры будут ставить 128 ГигаБайт памяти, чтобы можно было запускать LLM на 120 миллиардов параметров (в FP4 — чипы как раз это поддерживают). Собственно, это и есть «новизна» персональных компьютеров — теперь у каждого будет персональный локальный ассистент наподобие OpenClaw или Hermes, получающий доступ к окнам приложений Windows. Обещают более плотную интеграцию и в частности продвинутые настройки безопасности для доступа к данным.
Глобально концепция понятная, но думаю, что первые годы будет немного буксовать (из-за тяжести интеграций + нужды сделать 1-2 итераций над чипом + адаптировать разработчиков), но потом, особенно как модели поумнеют и ассистенты станут продвинутыми — полетит, и виртуальный Джарвис станет нуждой каждого.
Интересно, как в эту картину вплетутся OpenAI и Anthropic с проприетарными моделями? В теории могу даже представить, что они могут предоставлять закрытые локальные модели, за которые придётся платить — а в остальном для вас это просто выбрать другой пунктик в меню и подождать, пока закончится загрузка.
9🔥289👍76🤡31👎12💩11 9🤯7❤🔥6👨💻4🌚2🤣1
Где-то полгода назад слышал от SemiAnalysis, что самые прибыльные компании в мире сейчас в 2027-м году и далее могут стать или еле-еле прибыльными, или вообще не иметь прибыли. Причина в том, что Google - Microsoft - Nvidia - Amazon - Meta (5 из 7 самых прибыльных) будут наращивать траты на датацентры, и все свободные деньги будут перенаправлены на AI.
Несмотря на то что Google за последние 4 квартала получили 195 миллиардов долларов чистыми (и обошли добывающую компанию Saudi Aramco, невероятно), они эти деньги пускают в дело, и на балансе последний раз когда я смотрел было ~$30B наличкой и ещё ~$70B ликвидом.
Но сливать их сразу в AI-гонку не хочется, и потому... третья самая дорогая компания в мире выпустит и продаст акций на 80 миллиардов долларов (это при том, что Google уже продавали столетние бонды), таким образом размыв доли всех держателей.
Ещё разок другой — и реально могут остаться без прибыли😦
Интересен и тайминг — они это сделали до выхода SpaceX на IPO (и тем более до OpenAI/Anthropic), так что пока что деньги у инвесторов есть. Но вот на тех, кто станет публичной компанией последним, может и не хватить — сейчас это реальное переживание. Поэтому между OpenAI и Anthropic идёт не только гонка моделей, но и кто быстрее выйдет на биржу. Anthropic вчера подали заявку S-1, которую Комиссия по ценным бумагам и биржам США отсмотрит, чтобы не допустить нарушений.
Несмотря на то что Google за последние 4 квартала получили 195 миллиардов долларов чистыми (и обошли добывающую компанию Saudi Aramco, невероятно), они эти деньги пускают в дело, и на балансе последний раз когда я смотрел было ~$30B наличкой и ещё ~$70B ликвидом.
Но сливать их сразу в AI-гонку не хочется, и потому... третья самая дорогая компания в мире выпустит и продаст акций на 80 миллиардов долларов (это при том, что Google уже продавали столетние бонды), таким образом размыв доли всех держателей.
Ещё разок другой — и реально могут остаться без прибыли
Интересен и тайминг — они это сделали до выхода SpaceX на IPO (и тем более до OpenAI/Anthropic), так что пока что деньги у инвесторов есть. Но вот на тех, кто станет публичной компанией последним, может и не хватить — сейчас это реальное переживание. Поэтому между OpenAI и Anthropic идёт не только гонка моделей, но и кто быстрее выйдет на биржу. Anthropic вчера подали заявку S-1, которую Комиссия по ценным бумагам и биржам США отсмотрит, чтобы не допустить нарушений.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔89🔥35 24🤯7👍6 4❤🔥1🤣1