Сиолошная
75.5K subscribers
1.98K photos
336 videos
1 file
1.96K links
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://tg-me.sbs/+i_XzLucdtRJlYWUy
Download Telegram
Произошёл додеп — Anthropic теперь расширили и недельный лимит на 50% (до 13-го июля, на 2 месяца).

Это в дополнение к недавнему удвоению 5-часовых лимитов.

А у Codex в конце мая акция с удвоением как раз заканчивается 🌚
7❤‍🔥166🌚63🔥37🤣20👍10🤡33💩1
Сиолошная
Произошёл додеп — Anthropic теперь расширили и недельный лимит на 50% (до 13-го июля, на 2 месяца). Это в дополнение к недавнему удвоению 5-часовых лимитов. А у Codex в конце мая акция с удвоением как раз заканчивается 🌚
Ещё сегодня вышла свежая статистика от Ramp, компании для менеджмента корпоративных трат и выпуска карт и (например, для сотрудников в командировке).

По их данным, 50% компаний в США платят за AI подписки, и впервые доля Anthropic превысила долю OpenAI (которые не росли почти год).

Самая частая критика этой аналитики в том, что очень многие крупные компании не пользуются Ramp, так что статистика не самая точная.

Но имеем что имеем, и в ответ на это Дядя Сэм объявил, что компании могут попробовать Codex бесплатно на два месяца. Попробовать заполнить форму можно тут — ограничений по странам не вижу, так что мб работает не только в Штатах.

🥊 битва за рыночек
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍106🔥36🌚179🤔4🤣4💩2🤡1👨‍💻1
Сиолошная
Не знаю, через сколько закончится дело и присяжные вынесут вердикт, но как я понимаю это произойдет в течение 2, край 3 недель.
Апдейт: сегодня закончились слушания свидетелей и экспертов, завтра будет выступление адвокатов перед присяжными (каждое не менее 2 часов). Адвокаты постараются исходя из всего обсуждённого нарисовать картину и описать, почему они правы.

Ну а после присяжные удалятся для вынесения приговора. Параллельно с ними будет думать и судья, так как приговор присяжных не является финальным, и судья может пересмотреть вердикт. А пока можно пересмотреть 12 Angry Men 🌚
🤡3.41K👍38🌚24🔥8🤔2💩1👨‍💻1
Сиолошная
Маленькое обновление по свежему бенчмарку ProgramBench (писал о нем неделю назад тут). Авторы соизволили прогнать GPT 5.5 на high/xhigh (максимальная длина рассуждений и время работы). И Opus 4.7 до кучи тоже. Процитирую авторов: «GPT 5.5 xhigh значительно…
Параллельно наблюдаем за одной из задач, аналогичной ProgramBench и MirrorCode, в прямом эфире. В декабре Anthropic купили авторов Bun — набора инструментов «всё в одном» для JavaScript, замена npm/npx/node и тд, только очень быстрая.

Изначально Bun был написан на языке программирования Zig, и это стреляло авторам в колено, некоторые вещи, связанные с утечками памяти и неэффективностями, было очень долго и сложно отлаживать.

Сегодня в основную версию Bun вмерджили полную реимплементацию на Rust, другом очень быстром языке, но с большим фокусом на безопасность памяти (как раз чтобы не было утечек).

PR с добавлением Rust —  на миллион строк кода. И как вы догадываетесь переписывали эти строки не руками, а Claude Code в цикле.

«Он проходит существующий набор тестов Bun на всех платформах (и исправляет несколько утечек памяти и нестабильных тестов), размер бинарного файла уменьшается на 3–8 МБ, результаты бенчмарков находятся в диапазоне от нейтральных до более позитивных — и, что наиболее важно, теперь у нас есть инструменты, поддерживаемые компилятором, для обнаружения и предотвращения ошибок, связанных с памятью».

3 дня назад основной разработчик писал, что агентов запустили в цикл 6 дней назад, и с тех пор они непрерывно работали. Так что всё переписывание уложилось в 10 дней.

Ждём блогпост с деталями и объяснениями, сколько это стоило, как работало — там точно было не просто: «Claude, перепиши Bun на Rust. Не допускай ошибок». Конечно, самое важное требование для такой задачи — наличие всепокрывающих тестов, которые позволяют агенту проверять, работает ли новый код или нет.

Менеджерам рекомендуется закладывать бюджет на токены для переездов на новые языки и фреймворки в H2 2026 😀
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥233🤯87🤡24👍17🎉11🤣4🤔22💩1
Есть такой журналист и критик AI Ed Zitron (блог). Обычно он пишет полный бред, и его основная проблема в том, что он даже не рассматривает возможность своей неправоты, и как следствие все его посты никогда даже не затрагивают альтернативные точки зрения и объяснения. Почти все последние посты основаны на том, что инференс не прибылен и что подписки субсидируются (что не является правдой, о чём я писал 25 раз). Вот пара кратких твитов, чтоб посмеяться: 1, 2. Он даже графики читать не умеет 😟

Пара человек, которые кидали мне в личку его блоги и говорили "ага видишь!" уже даже сами перестали ему верить и вникать что там имелось в виду, потому что пишет бред.

===

Но позавчера у него вышла статья Where Are All The Data Centers?, которая в кой то веке задаёт интересные вопросы (размышления и тем более выводы всё ещё во многом бестолковы).

На двух последних звонках по квартальным отчётам CEO Microsoft говорил, что за квартал они смогли добавить мощностей ДЦ на 1 ГигаВатт. Это очень много — на данный момент всё ещё нет ни одного большого ДЦ такого размера (хотя Ed почему-то думает, что все вокруг считают, что они есть, и его цель развенчать этот миф). Первым должен стать Colossus 2 от xAI, который дозапустят вот совсем скоро.

Но если начать смотреть на анонсы Microsoft, то найти этот ГигаВатт не получается. Многие ДЦ, заложенные 2-3 года назад, всё ещё строятся и/или запущены лишь частично. Многие из них очень маленькие, даже не на 100+ МегаВатт. Два самых крупных запуска Microsoft — это Fairwater в Висконсине и Атланте; на бумаге это огромные ДЦ, но сейчас запущено по 1-2 здания, то есть малая часть.

И каждый Fairwater на сегодня имеет мощность 117-350 МегаВатт, в зависимости от того, чьи оценки брать. Для каждого из них Microsoft делали анонс, Satya Nadella появлялся в новостях, у Dwarkesh даже в подкасте приходили на один из ДЦ. Но где-то ещё стоит x2-x7 от этого объема, и... при них ничего не было?

Других крупных анонсов не появлялось, по бумагам и разрешениям на строительство видно, что настолько крупных ДЦ незаметно не выросло. Где же остаток?

(тут Ed говорит что Microsoft врёт и все врут и вообще всё пузырь)

Я пообщался с GPT-5.5 Pro / Parallel AI и вот TLDR моего исследования: действительно не ясно, где и что Microsoft запустили; по публичной информации собрать этот ГигаВатт по кусочкам с какой-либо уверенностью не получается.

Не рассматривая версию, что 4 самая дорогая компания в мире откровенно врёт на ежеквартальном звонке, есть гипотеза, как именно объясняется этот ГигаВатт, и состоит она из 4 частей:
1) новые стойки ставят в уже построенные и давно запущенные ДЦ
2) существенная часть наращивания мощностей это аренда ДЦ у других облаков
3) о многих заграничных ДЦ информации в интернете в целом нет, поэтому найти сложно
4) сложности с разделением энергии "на чипы" / "на железо" / "в ДЦ" / "на ДЦ"
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71🤔38🤡196👨‍💻4🔥2💩2👎1🤯1
Начнём с конца. Компании могут упоминать очень разные цифры в контексте ДЦ; есть большая разница между "сколько мы забираем с электростанции" и "сколько идёт на GPU" — ведь есть потери передачи, траты на охлаждение (очень существенные), и CPU + память тоже сколько-то едят. По грубой прикидке разница в этой воронке может быть 30-40% и даже чуть больше. 100 МегаВатт с подстанции могут превратиться в 75 МегаВатт непосредственно на GPU.

2 и 3 достаточно просты и при этом очень вероятны. Про 3, например, Microsoft говорили в прошлом году, что запускали огромный ДЦ в Малайзии, но деталей чего и сколько — нет, при этом сам ДЦ в анализе Ed никак не появляется (хотя некоторые другие иностранные, в основном, европейские есть). SemiAnalysis тоже много раз писали про этот ДЦ и про большие планы Microsoft. Так что я готов поверить, что пара сотен МегаВатт по всему миру может набраться.

У Microsoft по последним данным более 400 ДЦ в 34 странах, а количество регионов в Azure за год выросло с 70 до 80. В целом относительно легко поверить, что в, скажем, 40 из них (всего лишь 10%) заехали новые стойки с GPU на 5 МегаВатт (то есть очень мало) для поддержки AI-фичей Copilot в каждом регионе. Вот вам ещё 200 МегаВатт в квартал.

Самая большая проблема с этим пунктом — не место (стойки очень прожорливые, и потому занимают меньше места, чем традиционные), а энергия (и ещё охлаждение, но забудем про него). Не во всех регионах можно по щелчку получить +5 МегаВатт от станции. И быстрый гуглинг не помог найти никаких новостей о подаче заявок на доп. энергию для маленьких ДЦ хотя бы в каких-то частях мира. Но должно ли такое гуглиться? Мне кажется логичным, что вне Европы хрен кто найдет информацию о том, на что идёт энергия со станции и кто там что кому разрешал или не разрешал.

В целом запланировать обновление 40 датацентров кажется огого задачей, но когда у тебя в управлении 400, то в целом уже не так нереалистично. Такое можно запланировать заранее, согласовать, получить энергию, купить чипы, и так далее.

Поэтому итог такой. В целом приходится немного крутиться, чтобы найти этот ГигаВатт, но это не звучит совсем нереалистично. Только это ГигаВатт с электростанции, так что на чипы идёт условно 700 МегаВатт (=чипов меньше, чем можно подумать), и из них лишь, скажем, 550 это ДЦ Microsoft (150 в аренду взяли), и из них лишь 200 в крупных ДЦ в США/Европе, которые легко найти, а остальные 350 размазаны по земному шару в 30-50-100 мелких датацентрах. Плюс как пишет сам Ed — ДЦ запускают кусками, сначала одно здание, потом второе, и вполне возможно, что существенная часть GPU легла в уже запущенные, но продолжающие строиться маленькие ДЦ. Поэтому новостей о появлении новых и нет.

В идеале конечно бы почитать более чёткий анализ от SemiAnalysis или хотя бы Epoch.AI. У первых есть отдельная модель, отслеживающая более 5000 датацентров, и думаю по ней было бы очень легко проверить слова Satya Nadella, кто где чего сколько. Правда доступ к данным стоит не меньше $10k, поэтому сори, аналитика пока только на коленке 😏
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍83❤‍🔥14👨‍💻10🤔3💩3🌚3🤯2👎1
Сиолошная
Параллельно наблюдаем за одной из задач, аналогичной ProgramBench и MirrorCode, в прямом эфире. В декабре Anthropic купили авторов Bun — набора инструментов «всё в одном» для JavaScript, замена npm/npx/node и тд, только очень быстрая. Изначально Bun был написан…
Произошла ситуация: в комментариях меня упрекнули, что ключевой разработчик Bun написал 5-го мая, что это всего лишь эксперимент, а Bun не планирует переезжать на Rust — а я про это не сказал.

Правда для самого разработчика способность Claude переписать всю кодовую базу так, чтоб заработало, оказалась большим сюрпризом. 9-го мая он затвитил мем курящего Макконахи и сказал, что 99% тестов уже проходят. А 11-го мая написал:
«Завтра выйдет Bun v1.3.14. Если мы всё-таки объединим переписанную на Rust версию с основной кодовой базой, это будет последняя версия в Zig.»

Ну а 13/14-го мая, как вы знаете, версии кода были объединены. Так что Rust остаётся, Zig уходит почти наверняка — финальное подтверждение ожидаю в обещанном блогпосте.

Что мы узнали? Две вещи:
1) в комментариях как всегда люди, которым виднее (я с этим борюсь, конечно, уменьшаю их число)

2) даже сотрудник Anthropic с доступом к лучшей экспертизе и моделям, а также в целом очень сильный разработчик, не ожидал, что модели НАСТОЛЬКО хороши и смогут перевести его проект на новый язык. Черт возьми, миллион строк кода! И это ЗА НЕДЕЛЮ развернуло его позицию на 180 градусов.
🤡202184🔥74🤣30👍27❤‍🔥11🌚10👨‍💻5🤔4🎉2💩2
🤡 в сообществе уже появились персонажи, у которых переписывание популярного фреймворка на 1 миллион строк — это простые, не очень впечатляющие задачи, в которых нет ничего нового.
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤣1.53K🌚105🤡9525👍18❤‍🔥9👨‍💻6🤔3💩32
Please open Telegram to view this post
VIEW IN TELEGRAM
2🤡117👍34🌚158👨‍💻7🤔54💩2🤣2🔥1
Сиолошная
Апдейт: сегодня закончились слушания свидетелей и экспертов, завтра будет выступление адвокатов перед присяжными (каждое не менее 2 часов). Адвокаты постараются исходя из всего обсуждённого нарисовать картину и описать, почему они правы. Ну а после присяжные…
Sama wins

Суд присяжных постановил, что Маск подал иск слишком поздно, чтобы признать Альтмана, Брокмана или OpenAI ответственными за какие-либо претензии, предъявленные им генеральным директором Tesla. Присяжные также признали Microsoft невиновной в пособничестве Альтману и Брокману и получении прибыли от сделок с OpenAI из-за сроков подачи иска Маском.


Почему так? (моя интерпретация) потому что сам Elon покинул компанию в 2018-м году, а последние пожертвования от него были в 2020-м — и то в виде предоплаченной аренды офиса, а не прямых инвестиций. При этом обо всех "незаконных" вещах, о которых он рассказывал, он знал очень давно. OpenAI не стали коммерческой компанией вчера или даже в 2020-м. И присяжные посчитали, что Elon уже тогда знал о вещах, которые подтолкнули его, с его же слов, к иску.

Присяжным потребовалось меньше 2 часов. Судья согласилась с вердиктом и приняла его.

В честь праздника закажу энергетик, больше полугода не пил 🥂
Please open Telegram to view this post
VIEW IN TELEGRAM
2🤡359❤‍🔥15847👍33🤣27🔥14🤔13👎12💩5😭2😈1
Cursor анонсировали новую модель собственного производства, Composer 2.5. Она базируется на Kimi 2.5 (как и Composer 2), но компания влила в модель в ~7 раз больше мощностей, чем авторы самой Kimi.

Отчитались о качестве на 3 бенчмарках — везде существенно лучше Composer 2, и почти догоняет Opus 4.7. Самый главный бенчмарк тут наверное CursorBench v3.1, так как предположу, что он ближе всего к тому, что делают пользователи в их IDE с агентами. Если попробуете модель — пишите в комменты как вам.

В анонсе важны три вещи.

Во-первых, цена: поскольку компания сама разворачивает модель и никому не платит маржу, то Composer гораздо выгоднее (цена не поменялась с прошлой версии). Цены $0.5 и $2.5 за миллион токенов на входе и выходе (правда скидка на кэш всего 50%, а не по 90%, как у других). GPT-5.5 стоит 5/30 — более чем в 10 раз дороже. См. вторую картинку в посте для соотношения цена-качество. Это важно потому, что делает подписку Cursor привлекательной для корпоративных клиентов, которые уже начали ощущать на себе последствия ценовой политики Anthropic, заставляющих платить энтерпрайз по API-ценам.

Во-вторых, Cursor написали, что уже тренируют (с нуля!) модель на в ~10 раз большем количестве мощностей на кластере SpaceXAI Colossus 2. Да, один кластер Elon Musk отдал Anthropic, а другой себе + Cursor, с которыми заключили сделку. Но даже для Composer 2.5 увеличили количество синтетических данных в 25 раз, и по другим осям тоже докинули — мощностей потребовалось не мало.

В-третьих, в обучении модели использовали self-distillation. Я мб напишу позже разбор статей (в блоге ссылаются на 3), но если тезисно: одна и та же модель выступает и в роли учителя, и в роли ученика. Ученик генерирует ответы, и иногда ошибается (например, неправильно вызывает инструмент для редактирования кода или запуска тестов). Такой момент отлавливается, и затем та же модель с того же места получает подсказу или напоминание. Опираясь на них, учитель генерирует более качественное распределение вероятностей для следующих токенов. Ученик же видит только исходный запрос и учится предсказывать те же токены, минимизируя расхождение (KL-дивергенцию) с поведением учителя. См. картинку 3 в посте.

Зачем это нужно? Проблема обычного подхода к обучению в том, что модель получает награду за всё решение, и либо всё — хорошо, либо всё — плохо. При этом даже неправильный шаг в правильном решении получает награду. Self-distillation позволяет точечно исправить это.

Скорее всего в ближайшее время будем много слышать-читать про self-distillation, все подхватят и начнут использовать.

А Cursor x SpaceXAI плавно идут к выпуску крупной модели Grok 5 / Composer 3.
1🔥233👍62❤‍🔥18🎉5🤡5🤔43💩1👨‍💻11
Karpathy теперь не безработный AI-учитель, а сотрудник Anthropic.

(на самом деле он пошел за бесплатными кредитами на Claude Code)
1❤‍🔥341🤣215🤯104🔥31🌚1812🤡87🤔6👨‍💻6
Google проводят ежегодный I/O, на котором показали Gemini Omni Flash (про неё отдельно), и Gemini Flash 3.5 — новый флагман компании. Почти как Gemini Pro 3.1 (во многом лучше по метрикам, но нужно смотреть в практике), но существенно быстрее и немного дешевле Pro (но гораздо дороже прошлых Flash).

На новых чипах TPU v8i скорость вообще была 800-1500 токенов в секунду, но пока видимо не доступно. Хотя упомянули, что в Antigravity скорость в 12 раз быстрее, чем прошлая Pro.

Ждём Pro (не сегодня) — обещали в следующем месяце.
1👍109🔥46🤡9❤‍🔥7🤔5👨‍💻3🤯1💩1
Сиолошная
Google проводят ежегодный I/O, на котором показали Gemini Omni Flash (про неё отдельно), и Gemini Flash 3.5 — новый флагман компании. Почти как Gemini Pro 3.1 (во многом лучше по метрикам, но нужно смотреть в практике), но существенно быстрее и немного дешевле…
Для наглядности, вот эволюция цены выходных токенов Flash-моделей Gemini 😦

Так что теперь Flash Lite как прошлый Flash, Flash как прошлый Pro, а Pro... как то, с чего дистиллировали модель 🤷‍♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤯190❤‍🔥18🤔18😭10👍5🤡5🌚4👎3💩2👨‍💻22
Сиолошная
Ещё сегодня вышла свежая статистика от Ramp, компании для менеджмента корпоративных трат и выпуска карт и (например, для сотрудников в командировке). По их данным, 50% компаний в США платят за AI подписки, и впервые доля Anthropic превысила долю OpenAI (которые…
Sama пришёл в свою альма-матер YC и предложил всем стартапам по $2M в токенах (то есть можно и на Codex и на API тратить) за какой-то процент от компании.

К сожалению, не могу найти, какой % от компании, но очень интересно, сколько фаундеров примут предложение — токены они получают сейчас, а акции ещё когда что-то стоить начнут? Не скоро.

Интересно, как изменится относительная популярность Claude Code в ближайшее время 😏
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣909🤯68❤‍🔥3424🔥19👍12🤔12🎉5🤡5💩2
Сиолошная
Можно ли рассматривать эту ситуацию как move 37 в математике? Скорее всего нет, хоть и очень близко:
Ну вот а свежий тизер к GPT-5.6 уже скорее всего можно — OpenAI выпустили блогпост, статью и комментарии от математиков о решении одной из самых известных задач в комбинаторной геометрии, которую легко сформулировать, но невероятно трудно решить. На протяжении почти 80 лет математики изучали обманчиво простой вопрос: если расположить n точек на плоскости, сколько пар точек могут находиться на расстоянии ровно 1 друг от друга?

Со времен оригинальной постановки проблемы преобладало мнение, что конструкции в виде «квадратной сетки» были оптимальными для максимизации числа пар. Внутренняя модель OpenAI опровергла эту гипотезу, предоставив бесконечное семейство примеров, которые дают улучшение. Доказательство было проверено группой независимых математиков. Они также написали сопроводительную статью, объясняющую логику решения и предоставляющую дополнительную предысторию и контекст о значимости этого результата.

Как и почти всегда, доказательство было получено с помощью новой модели общего назначения, обладающей способностью к рассуждениям, а не от системы, обученной специально для математики или под конкретную задачу (поэтому я пошутил про GPT-5.6).

Это доказательство является важной вехой для сообществ математиков. Это первый случай, когда значимая открытая проблема, занимающая центральное место в одном из разделов математики, была автономно решена искусственным интеллектом.

В этом доказательстве для решения элементарной геометрической задачи применяются неожиданные и сложные идеи из алгебраической теории чисел. Лауреат Филдсовской премии Timothy Gowers в сопроводительной статье называет этот результат «вехой для ИИ в математике». По словам другого математика, «эта статья демонстрирует, что современные ИИ-модели — это нечто большее, чем просто помощники для людей-математиков. Они способны генерировать оригинальные, гениальные идеи и затем доводить их реализацию до конца».

Пара опрошенных учёных даже сказали, что приняли бы эту работу в любой научный журнал без колебаний.

Бонусом показали, что результат — не случайность; после проверки первоначального доказательства OpenAI прогнали модель несколько раз с разными настройками. И видно, что при увеличении количества использованных мощностей (читай длины цепочек рассуждений) модель всё чаще и чаще приходит к доказательству, вплоть до 48% от всех прогонов (см. картинку ниже).
1🤯247❤‍🔥96🔥61🎉34👍18135🤡4💩3👨‍💻1