Сиолошная
75.5K subscribers
1.98K photos
336 videos
1 file
1.96K links
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://tg-me.sbs/+i_XzLucdtRJlYWUy
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Первое видео Starship из космоса со стороны.
🔥188❤‍🔥41🤯13💩12🎉10👍74🤡3🤣2
BLASST: Dynamic BLocked Attention Sparsity via Softmax Thresholding — лучшая статья MLSys '26.

Классная идея ускорения расчёта attention в трансформерах, заявляют большие цифры, около 50% ускорения, но на замере всей модели, а не отдельного блока, выходит ~10%. В основном потому, что в целом всё сильно заоптимизировано, и на безрыбье и 10% — много.

В чём идея: обычный FlashAttention при обработке последовательности распиливает её на блоки (по KV) и начинает обработку слева направо. Поскольку в Attention есть softmax, а значит и экспонента, то существует риск переполнения, когда степенью становится очень большое число — поэтому применяется классический трюк вычитания максимума (Softmax инвариантен к сдвигу). Но если FlashAttention работает по блокам, то как узнать максимум заранее?

Можно предварительно пройтись по всем токенам и посчитать max(), но это медленно. Ещё с 2018-го года известен трюк онлайн-подсчёта, который использовал FlashAttention 1. Его смысл в том, что нам не нужно знать максимум сразу — мы помним текущий максимум и для каждого нового блока сравниваем его и локальный максимум блока. Если они отличаются — нормализацию надо пересчитать, в том числе задним числом для предыдущих блоков. Таким образом обработав последний блок в последовательности все предыдущие блоки уже скорректированы, и расчёт Attention становится точным.

FlashAttention 4 предложил новую идею: делать коррекцию предыдущих блоков не каждый раз, когда встречается новый максимум, а только тогда, когда есть угроза потери точности вычислений из-за переполнения. Но при этом все вычисления всё равно так или иначе производятся по честному, никакие расчёты не выкидываются, и Attention получается математически точным.

BLASST предлагает идти дальше: если в блоке максимум сильно меньше, чем посчитанный по предыдущим блокам, то его полностью выбрасывают. Value-векторы токенов этого блока вообще не участвуют в вычислениях. Так можно сделать потому, что если максимум (то есть самые «важные» токены) маленький, то получается, что ничего важного в блоке и не было.

Это изображено на первой картинке — есть 6 блоков, первый всегда обрабатывается, а некоторые последующие пропускаются.

Авторы показывают, что можно выкидывать чуть ли не 50-60% блоков (то есть примерно столько же токенов в последовательности) и при этом почти не терять в качестве — до 1% на бенчмарках на длинный контекст. А в некоторых бенчмарках на рассуждения (AIME2024, GPQA) даже наблюдается маленький прирост качества, я бы сказал в рамках погрешности. Авторы объясняют это тем, что выкидывают токены, которые являются шумом и не важны для текущего токена. Логика в этом есть, в целом все sparse attention на это опираются.

Все изменения можно делать без дообучения моделей, просто поменяв кернелы для инференса. Но также показывают, что если модель немного поучить с новыми кернелами, чтобы она привыкла, что некоторые блоки выкидываются, то качество подрастает.

Один из плюсов подхода — он совместим со множеством других оптимизаций, включая DeepSeek MLA (правда статья вышла до v4, поэтому MLA уже не так актуален).

А в серьезные минусы статьи запишу, что как-то поскупились на оценки больших моделей на реально тяжелых бенчмарках с длинным контекстом — работу написали исследователи из Nvidia, уж у кого, а у них мощности точно были. В аппендиксе тестируют Llama 3.1 70b на одном датасете и DeepSeek R1 на трёх, но не long context — и для обеих моделей не пишут про ускорение 👨‍🦳
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍104❤‍🔥25👨‍💻173🔥1💩1
В параллельном мире у всех сегодня отпуск, все сидят играют в GTA VI

А нам ждать до 19-го ноября.
1😭246🤣49❤‍🔥2313🤡6💔5👎4🌚3🤔2👍1💩1
Forwarded from БлоGнот
Китай распространил режим выездных согласований на топ-специалистов по AI в частных компаниях, включая Alibaba и DeepSeek. По данным источников Bloomberg, основателям стартапов, исследователям и руководителям, признанным стратегически значимыми, теперь требуется одобрение властей перед поездками за рубеж. Прежде подобная практика — вплоть до изъятия паспортов — применялась к чиновникам, ядерщикам и менеджменту госкомпаний; распространение её на частный сектор ранее было нехарактерно. Списки формируются не по уровню должности, а по индивидуальной оценке критичности человека для страны.

Все "новое" на самом деле просто старое, о котором не в курсе новые поколения. Всякие особенности на передвижение людей, имевших или могущих иметь отношение к "режимным" вопросам, не пропадали никогда на протяжении последних лет 80. А уж если кто помнит советские практики в этом плане, то и вообще удивляться не будет.

https://www.bloomberg.com/news/articles/2026-05-26/china-expands-travel-curbs-to-top-ai-talent-at-private-firms?accessToken=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJzb3VyY2UiOiJTdWJzY3JpYmVyR2lmdGVkQXJ0aWNsZSIsImlhdCI6MTc3OTgwMDQwMCwiZXhwIjoxNzgwNDA1MjAwLCJhcnRpY2xlSWQiOiJURjBEMzhLSzNOWUEwMCIsImJjb25uZWN0SWQiOiJDODcyMDJCNUE5RkU0Q0NBOTBFMTgzMDUxNkYxNTlGRSJ9.HzM3tbnW8AlvQEje6EVlRrl7NLsqCcxkVWRx1-zpTqI
🌚141👍39💔19😭1814👨‍💻9🤔7🔥5🤯4🤣4❤‍🔥1
DeepSWE — новый бенчмарк для оценки агентов в имплементации функциональности. Бенчмарк новый, а по сути уже устаревший — GPT-5.5 выбивает 70% 👨‍🦳Структурно во многом повторяют SWE-Bench-like бенчмарки, но:
— промпты не описывают детали имплементации, где и что
— верификация сделана чуть более чисто, тесты направлены на наблюдаемое поведение, а не конкретную имплементацию
— в среднем требуется добавить 668 строк кода (против 100-200 у многих предыдущих бенчмарков)
— задачи основаны на публичных репозиториях, но не на коде, который был опубликован. Например, авторы брали незакрытую проблему, писали решение, и против него уже проверяют LLM.

Результаты на первой картинке. Важный астериск — использовали mini-swe-agent, а не родные инструменты моделей, но на 10 случайно выбранных задачах показали, что просадки в качестве нет (на 10 примерах доверительный интервал поди +-4 😀)

3 и 4 картинки сравнивают разные модели по скорости работы (токены и время) и цене. Например, с Gemini 3.5 Flash наблюдается паттерн, который отметили многие — модель как бы работает быстрее, но ей и требуется гораздо больше токенов, потому выходит по цене так же, как... GPT-5.5 или Opus 4.6 😂(и дороже Gemini 3.1 Pro). Но хоть оценка не настолько плоха.

Тут как ни посмотри, модели OpenAI впереди — быстрее, дешевле, лучше. Скорее всего причина в том, что их пайплайн подготовки задач гораздо более похож на тот, что использовали авторы DeepSWE. Но с другой стороны не думаю, что это объясняет прям всю разницу — уже вышло много бенчей, где 5.5 действительно на уровне или обходит Claude.

На этом авторы не остановились, а начали анализировать результаты и траектории — для этого использовали LLM-агента, чтобы разметить паттерны ошибок (чтобы не пропускать как будто работающие, но плохие решения). Самые частые проблемы — это игнорирование части требований (GPT-5.5 опять хорошо выделяется следованием инструкций), ошибки интеграции и регрессия, когда из-за новой функциональности перестает работать старая.

Для всех типов ошибок выложены траектории-примеры, очень рекомендую перейти на сайт и почитать хотя бы парочку; мне было интересно.

Вот Блогпост

И ещё авторы сделали пару наблюдений:
— Claude плохо запоминает многосоставные промпты. Часто просят сделать A и Б, модель делает А, но про Б забывает.
— сильные модели пишут тесты даже когда их об этом не просят. Особенно заметно в GPT (любители smoke tests тут? Наверняка заметили) и Claude, в 80% задач. Слабым ещё предстоит это освоить, глядишь, скор подрастет.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍106🔥17🌚15🤔8🤡777💩5👨‍💻4❤‍🔥1💔1
Новый опус: https://www.anthropic.com/news/claude-opus-4-8

1) цена та же
2) сделали гранулярную разбивку длины рассуждений, как у ChatGPT
3) fast режим, ускоряющий генерацию в 2.5 раза, теперь в 3 раза дешевле, чем для предыдущих моделей. Получается было в 6 раз дороже, сейчас в 2 — надо брать.
4) «Одним из наиболее заметных улучшений в Opus 4.8 является его честность» — модель будет врать поменьше (наверное)
5) «Мы планируем выпустить новый класс моделей с ещё более высоким уровнем интеллекта, чем у Opus» — ждём «в ближайшие недели»
👍210🔥84❤‍🔥32🤡13🌚10🤣8🤔3👨‍💻3🤯2🎉1💩1
Сиолошная
сделали гранулярную разбивку длины рассуждений, как у ChatGPT
Вот так выглядит на SWE-bench Pro

Обратите внимание, что в Claude Code по умолчанию стоит high, а не x-high или max.
4🔥113👍28🤔9🌚5👨‍💻3
Anthropic ещё сказали про сущий пустяк — привлекли 65 миллиардов долларов при оценке 900, и ARR вышел на невероятные 47 миллиардов долларов (выручка за год, если спрос никак не поменяется по отношению к последнему месяцу).

Оооочень хочется узнать ARR OpenAI 👀 почти наверняка они отстают, но на сколько?
Please open Telegram to view this post
VIEW IN TELEGRAM
1🎉202🔥55🌚3917🤯12👍9🤡8🤔73👎1🤣1
Кроме новой модели и раунда инвестиций Anthropic представили можно сказать следующий шаг в агентской разработке — dynamic workflows. Именно с помощью этой фичи был осуществлен перевоз Bun с Zig на Rust.

Когда запускается dynamic workflows, Claude создает динамический план на основе запроса, разбивает на подзадачи и распределяет работу между параллельно работающими агентами. Результаты проверяются перед их сливнием, и в итоге вы получаете единый готовый ответ. Одни агенты решают отдельные независимые проблемы, другие агенты пытаются найти ошибки в полученных результатах, и процесс продолжается до тех пор, пока второй этап не вернет пустой результат.

Dynamic workflows созданы для длительной распараллеливаемой работы, которая может продолжаться часами и днями, выполняя самые сложные инженерные задачи, которые раньше занимали бы недели. Прогресс сохраняется по мере выполнения, поэтому прерванная задача возобновляется с того места, где остановилась, вместо того, чтобы начинаться заново.

Пример как именно это работало с Bun:
Один workflow определил правильный lifetime (время жизни) в Rust для каждого поля структуры в кодовой базе Zig (это важный атрибут языка). Следующий workflow переписал каждый файл .rs как идентичный порт его .zig-аналога, при этом сотни агентов работали параллельно, а каждый файл проверяли два ревьюера. Затем цикл исправлений прогонял сборку и набор тестов до тех пор, пока они не начали выполняться без единой ошибки. После того как весь код был объединен, отдельный workflow устранил лишнее копирование данных и открыл PR для каждого случая на финальное ревью — которое тоже может быть выполнено агентами.

Как вы понимаете, жрёт это всё немало токенов. Число кейсов для применения ограничено — порт с одного стека на другой является самым ярким, так как у агентов есть критерии.
💩1.1K👍159❤‍🔥34🔥218🤔6🌚5🤡3👨‍💻1
Сиолошная
Кроме новой модели и раунда инвестиций Anthropic представили можно сказать следующий шаг в агентской разработке — dynamic workflows. Именно с помощью этой фичи был осуществлен перевоз Bun с Zig на Rust. Когда запускается dynamic workflows, Claude создает…
Пример того как выглядит workflow можно посмотреть вот в этом PR для Bun.

По сути это большой набор автосгенерированных .js-файлов, в которых просто хранится структура выполнения набора промптов. Там бквально есть циклы вида «для каждого файла запусти агента с таким промптом», проверки «ни один агент не вернул такой-то результат» или «2 агента-ревьюира отсмотрели и одобрили код».

Мне было бы куда интереснее посмотреть workflow для бизнес-задач, как CC распланирует работу над каким-нибудь отчётом или обзором, как будет ревьюить, переписывать, вычитывать, итд. Но примеров пока нет :(
💩1.08K👍101🔥17🤔11🌚8👨‍💻65🤣4🤡2
This media is not supported in your browser
VIEW IN TELEGRAM
Ракета New Glenn взорвалась на площадке во время огневых испытаний — это самый мощный взрыв на Мысе Канаверал за десятки лет.

Остаётся надеяться, что никто не пострадал, тк во время подробных испытаний проводят эвакуацию площадки.

Сам взрыв на площадке LC-36 произошёл во время дежурного прожига новой первой ступени, когда ракета не была полностью заправлена. Это был плановый этап перед запуском NG-4 на следующей неделе. Официального заявления от компании пока не было, и подробностей нет.

Но это конечно мощнейший удар по Blue Origin, тк этот стартовый комплекс с очень сложным ретрактором был единственной площадкой для запуска этой ракеты. Особенно на фоне неудачного прошлого пуска, анонсам по доставке нагрузки на Луну от NASA, и их амбициозным планам обогнать SpaceX в гонке за высадку во время Artemis 4.

Дежурное напоминание, что космос это сложно. Blue Origin Джеффа Безоса остаются топ2 компанией в отрасли, и второй с возвращаемым ускорителем орбитального класса.

UPD: никто не пострадал.

📸:
NASASpaceFlight
😭222🔥61🌚27🤯23❤‍🔥11💩8🤣76👍5👨‍💻3
Please open Telegram to view this post
VIEW IN TELEGRAM
🤡8242🤔14🤯6👨‍💻3👍2
Ребята из Nebius обновили SWE-rebench после двухмесячного перерыва, добавив 110 новых задач. В отличии от многих других бенчей, наконец-то добавляют запуски в Codex и Claude Code. Просто писать «GPT-5.5 в очередной раз статистически значимо лучше моделей Anthropic» не хотелось, но Ибрагим, первый автор статьи, добавил немного аналитики по эффективности.

— GPT-5.5 medium выглядит заметно эффективнее, чем Opus 4.8 high (обе настройки — значения по умолчанию)
— Opus 4.6 -> 4.8 стал более оптимизирован: больше решенных задач, на 45% меньше токенов на задачу и примерно на 39% ниже стоимость решения задачи.
— Opus 4.8 high практически не превосходит Opus 4.7 high по качеству, но значительно дешевле в плане вычислительных ресурсов. Количество токенов на задачу снизилось с 1.5 млн до 1 млн, а среднее количество шагов уменьшилось с 44 до 34.
 — Полезной метрикой является pass^5. Здесь мы засчитываем задачу только в том случае, если она была решена во всех 5 независимых запусках. GPT-5.5 vs GPT-5.4 – 51 vs 39 задач, модель гораздо меньше полагается на «везение», что один раз получилось решить, другой нет. Для Opus это число практически одинаково во всех версиях модели.
— опенсурс очень сильно отстаёт
— Composer 2.5 от Cursor на этом наборе задач выглядит очень перспективно за счёт цены (см. колонку) — в 4 раза дешевле GPT-5.5 medium
— ещё отмечу, что Claude получает гораздо больший прирост качества из-за использования родного скаффолда, в то время как GPT показывает +- тот же результат (хотя цена отличается в два раза, интересно почему).

В целом думаю честно сказать, что модели OpenAI с появлением 5.5 перешли в новую эпоху. Если давно в программировании они отставали от Anthropic, и потом +- сравнялись, то теперь они часто обходят конкурентов (особенно если закрыть глаза на фронтенд).
👍180🔥76❤‍🔥2615🤡10🤔77🌚4🎉2💩2👨‍💻2
Finally, PC 2 — Nvidia и Microsoft «переизобрели» персональные компьютеры для эпохи AI (я не шучу, в анонсе так и пишут, и даже «новая глава»).

За анонсом стоит новая платформа для PC и ноутбуков на основе RTX Spark Superchip, состоящего из GPU, CPU и объединённой памяти. По сути это то же самое, что M-чипы в ноутбуках Apple в последних лет, и они тоже на архитектуре Arm, и за счёт этого очень энергоэффективны.

В ноутбуки, а позже и в персональные компьютеры будут ставить 128 ГигаБайт памяти, чтобы можно было запускать LLM на 120 миллиардов параметров (в FP4 — чипы как раз это поддерживают). Собственно, это и есть «новизна» персональных компьютеров — теперь у каждого будет персональный локальный ассистент наподобие OpenClaw или Hermes, получающий доступ к окнам приложений Windows. Обещают более плотную интеграцию и в частности продвинутые настройки безопасности для доступа к данным.

Глобально концепция понятная, но думаю, что первые годы будет немного буксовать (из-за тяжести интеграций + нужды сделать 1-2 итераций над чипом + адаптировать разработчиков), но потом, особенно как модели поумнеют и ассистенты станут продвинутыми — полетит, и виртуальный Джарвис станет нуждой каждого.

Интересно, как в эту картину вплетутся OpenAI и Anthropic с проприетарными моделями? В теории могу даже представить, что они могут предоставлять закрытые локальные модели, за которые придётся платить — а в остальном для вас это просто выбрать другой пунктик в меню и подождать, пока закончится загрузка.
9🔥289👍76🤡31👎12💩119🤯7❤‍🔥6👨‍💻4🌚2🤣1
Где-то полгода назад слышал от SemiAnalysis, что самые прибыльные компании в мире сейчас в 2027-м году и далее могут стать или еле-еле прибыльными, или вообще не иметь прибыли. Причина в том, что Google - Microsoft - Nvidia - Amazon - Meta (5 из 7 самых прибыльных) будут наращивать траты на датацентры, и все свободные деньги будут перенаправлены на AI.

Несмотря на то что Google за последние 4 квартала получили 195 миллиардов долларов чистыми (и обошли добывающую компанию Saudi Aramco, невероятно), они эти деньги пускают в дело, и на балансе последний раз когда я смотрел было ~$30B наличкой и ещё ~$70B ликвидом.

Но сливать их сразу в AI-гонку не хочется, и потому... третья самая дорогая компания в мире выпустит и продаст акций на 80 миллиардов долларов (это при том, что Google уже продавали столетние бонды), таким образом размыв доли всех держателей.

Ещё разок другой — и реально могут остаться без прибыли 😦

Интересен и тайминг — они это сделали до выхода SpaceX на IPO (и тем более до OpenAI/Anthropic), так что пока что деньги у инвесторов есть. Но вот на тех, кто станет публичной компанией последним, может и не хватить — сейчас это реальное переживание. Поэтому между OpenAI и Anthropic идёт не только гонка моделей, но и кто быстрее выйдет на биржу. Anthropic вчера подали заявку S-1, которую Комиссия по ценным бумагам и биржам США отсмотрит, чтобы не допустить нарушений.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔89🔥3524🤯7👍64❤‍🔥1🤣1