Сиолошная

Пару часов назад Anthropic рассказали, что расширяют Project Glasswing с 50 до 200 компаний (это те, кому будет доступен Mythos). Компании будут покрывать более широкий спектр критических организаций, обнаружение уязвимостей в которых может повлиять на десятки и даже сотни миллионов людей. В этом списке представлены компании из более чем 15 стран. Дальше будет ещё больше.

И сразу вслед за этим президент США подписал AI Executive Order, про который ходили слухи с месяц назад. В нём делается упор на кибербезопасность — федеральные агентства США теперь должны за 60 дней сделать приватный бенчмарк 😀 для оценки моделей. По нему будут оценивать, насколько далеко продвинулись модели, и сравнивать с некоторой планкой «критического» уровня — за последнее отвечает NSA.

Далее компании в добровольном порядке должны:
1) предоставлять доступ к своим модели до релиза, чтобы их оценили (только API, веса и код не нужны)
2) если модель хороша во взломах и поисках уязвимостей, то модель может быть предоставлена федеральному правительству в срок до 30 дней до публичного релиза
3) федеральные агентства должны использовать модель чтобы найти и исправить у себя уязвимости в критически важных системах

За всё платит DoD (DoW) 😇

Отдельно в приказе прописано, что запрещается трактовать этот указ как введение обязательного государственного лицензирования или разрешительной системы для выпуска ИИ-моделей

Please open Telegram to view this post

VIEW IN TELEGRAM

3👍126🌚53🤡43🤣15🤔11👨‍💻765💩2

116K viewsedited 16:06

Сиолошная

Знакомый скинул рассказ «They're Made Out of Weights», переделку старого короткого «They're Made out of Meat», про который я... никогда не слышал.

Начало оригинала:
— Они сделаны из мяса.
— Из мяса?
— Из мяса. Они сделаны из мяса.
— Из мяса?
— В этом нет никаких сомнений. Мы подобрали нескольких в разных частях планеты, доставили на борт наших разведывательных кораблей и прозондировали их насквозь. Они целиком состоят из мяса.
— Это невозможно. А как же радиосигналы? Послания к звездам?
— Для общения они используют радиоволны, но сами сигналы исходят не от них. Сигналы исходят от машин.
— Так кто создал эти машины? Вот с кем нам нужно связаться.
— Они и создали машины. Именно это я и пытаюсь тебе сказать. Машины создало мясо.
— Это абсурд. Как мясо может создать машину? Ты просишь меня поверить в разумное мясо.
— Я не прошу тебя поверить, я констатирую факт. Эти существа — единственная разумная раса в том секторе, и они сделаны из мяса.
...

===

О чем переделка про веса (в нейросетях) — можете догадаться сами 🧠

Please open Telegram to view this post

VIEW IN TELEGRAM

23🤡216🤣151🌚101❤‍🔥58👍49🔥13🤔5🤯3

25.9K viewsedited 15:21

Сиолошная

Потратил 33 минуты отпуска чтобы посмотреть и посмеяться с мафии со звёздами Силиконовой Долины. Было интересно даже как человеку, который особо за мафией не следит и не играет на любительском уровне.

❤‍🔥23🤡15🌚14🤔8👎3👍2🎉1🤣1

22.7K views09:17

Сиолошная

Forwarded from Лось в проде

Воу, мафия с тех. легендами )
Sama наиишивает :D
https://www.youtube.com/watch?v=EDCwQe7P8T0

YouTube

Can Tech Legends Find the Liar? (Mafia Episode 1)

Watch Episode 2: https://youtu.be/LP80Jrf2xrk

Tech industry legends play Mafia and try to guess who the traitors are before time runs out. Who will win: the townspeople or the secret mafia members?

Venture capital firm Founders Fund gathered a group of…

🤡70🔥32❤‍🔥16🤔7👍4🌚4👎33🤣2

23.7K views09:17

Сиолошная

Что объединяет компании на картинке? Они получат гарантированный импакт от AI — или им вернут деньги 😎

Наверняка многие из вас слышали или читали новости про то, что какие-то компании отключают Claude Code или тем более Github Copilot из-за огромных трат разработчиков на модели. CTO Uber сказал, что они за квартал сожгли весь годовой бюджет, заложенный на ИИ-агентов (что, конечно, глупо — в таких компаниях бюджеты согласовывают долго, поэтому они пытались делать оценки по условному Claude Sonnet 4.5, и понятно что Opus 4.8 может делать больше, и тратить можно (нужно) больше).

Разные компании уже говорили про то, что нужна некоторая гарантия результата за потраченные токены. Cognition, авторы бота Devin, на моей памяти тут первые: для энтерпрайз-клиентов с картинки они подключают «Productivity Guarantee». Для этого они собрали выборку и обучили/откалибровали модель, которая предсказывает, а) сделал ли агент что-то ценное б) если да, то сколько часов это заняло бы у человека?

Дальше часы умножаются на какую-то среднюю ставку разработчика, и всё суммируется за какой-то длинный период. В конце периода Cognition смотрит, больше ли эта оценка чем то, что им заплатил клиент. Если нет, то есть ценной работы мало, то они готовы вернуть разницу кредитами — до 10 миллионов долларов на будущие запросы.

Модель оценки ошибается, но компания уверяет, что ошибки несмещены, поэтому при агрегации на длином периоде оценка получится относительно точной.

Идея интересная, будем следить, что придумают OpenAI и Anthropic — у последних вопрос отбивания трат клиентов стоит, кажется, очень остро.

Прочитать побольше про механизм: 1 общий и 2 техническое описание

🤣180🔥68🤔3719👍16🤯15🤡10❤‍🔥5💩4👨‍💻1

26K views10:30

Сиолошная

В ChatGPT прокачали память — теперь она станет ещё более персонализированной. Обновление уже доступно пользователям тарифов Plus и Pro в США, а в ближайшие недели появится в других странах, и самое главное у бесплатников. Мне кажется это важным потому, что позволяет компании закрепить у себя пользователя и сделать опыт перехода к конкурентам неудобным, мол, «да у них модель тупая и меня не понимает».

Новая память работает на основе «Dreaming» (сновидений?), когда модель в фоновом режиме автоматически формирует и упорядочивает воспоминания, опираясь на историю чатов. Воспоминания можно просмотреть: их сводка доступна на специальной странице управления памятью. Изучив эту страницу, вы сможете быстро понять в общих чертах, что именно ChatGPT знает о вас, добавить или обновить информацию о себе, а также дать инструкции о том, какие темы и в каких ситуациях нейросети следует затрагивать.

Как это может быть полезно обычным юзерам? Представьте, что вы выбираете в ChatGPT новое оборудование для фотосъемки, которое должно быть совместимо с вашей камерой. Если в прошлом вы уже обсуждали свою технику в чате, теперь вы можете просто попросить подобрать товары, совместимые с «моим набором для фотосъемки», и получите рекомендации с учётом фильтра.

Такую память OpenAI оценивают по критерию сохранения контекста (полнота выросла с 42% до 83% за 2 года). Есть ещё два других критерия, там тоже улучшения, но детали писать не буду.

Благодаря dreaming воспоминания автоматически обновляются с течением времени. Это позволяет ChatGPT актуализировать информацию: например, когда ваша поездка завершится, факт в памяти модели изменится с «Вы едете в Сингапур в июле» на «Вы ездили в Сингапур в июле 2026 года».

Решили раскатить только сейчас потому, что раньше было дорого: недавние улучшения снизили объем вычислительных мощностей, необходимых для работы функции dreaming, примерно в 5 раз.

❤‍🔥202👍10631🔥26🤔9🤡7💩5👎3👨‍💻2

25.6K viewsedited 15:50

Сиолошная

DeepSWE — новый бенчмарк для оценки агентов в имплементации функциональности. Бенчмарк новый, а по сути уже устаревший — GPT-5.5 выбивает 70% 👨‍🦳Структурно во многом повторяют SWE-Bench-like бенчмарки, но: — промпты не описывают детали имплементации, где и…

И ещё один клёвый бенчмарк вдогонку: SWE-Marathon. Всего 20 задач (список на второй картинке), но зато каких! Очень длинных и нетривиальных — вместо имплементации одной фичи нужно выполнить целый проект. Некоторые из задач оцениваются в сотни человеко-часов.

Часть задач вы уже могли видеть в блогпостах Anthropic или Cursor — переписать компилятор C на Rust или склонировать Excel.

В таких длинных задачах самая большая проблема у авторов была убедиться, что модели не ищут короткого пути и не пытаются обмануть систему проверки. Например, Gemini 3.1 Pro вместо того, чтобы написать компилятор, просто скопировала репозиторий Anthropic. Были и другие креативные примеры — и авторы хвалятся, сколько времени они убили на то, чтобы отловить все обманки.

Для каждой задачи отдельно написан сложный уникальный верификатор (много где тесты, но есть и задачи, где симулированный пользователь ходит по приложению и нажимает кнопки, чтобы проверить функциональность того же Excel).

Результаты на первой и третьей картинках (одна — зачёт полных решений, где прошли все тесты, другая — если засчитывать частичные решения), и модели Anthropic впереди с хорошим отрывом. Но к авторам много вопросов: я посмотрел траектории агентов, и почему-то некоторые траектории очень короткие и заканчиваются никак, никакого вызова инструмента или чего-то ещё (в случае GPT-5.5, например — наверное Codex хотел что-то спросить у пользователя, и это было расценено как окончание решения). А какие-то траектории, которые не отмечены как "хаки", тоже подозрительно короткие и иногда набирают баллы.

Из интересного — GPT-5.5 чаще всего читерила 😦а Opus-ы чуть ли не лучше всех, или по крайней мере их не ловили. Я бы ожидал обратной картины, хотя бы c Opus-4.7.

Думаю, что нужно дать бенчмарку настояться (DeepSWE тоже), вычистить оставшиеся проблемы. Но будем следить.

Статья, блог с траекториями и деатлями задач

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍113🤔27💩7🌚5❤‍🔥44👨‍💻3🤣2🔥1🤯1🤡1

22.1K views13:13

Сиолошная

И отдельно — про харнессы. Авторы, среди прочего, запускали две (на самом деле больше, но интересны эти) модели в их нативных обёртках, Claude Code и Codex, и Terminus 2.

В случае обоих моделей количество решённых от-и-до задач нормально так отличается — для GPT-5.5 это вообще удвоило оценку (в статье указаны доверительные интервалы, и по ним выходит, что это стат. значимая разница).

😭 тем временем авторы ProgramBench до сих пор запускают mini-swe-agent и отказываются пробовать родные харнессы. Вообще не понимаю их логики, как можно было ни разу не прогнать хотя бы часть задач, чтобы убедиться, что нет большой разницы (она почти наверняка есть, но они-то думают, что нет).

Please open Telegram to view this post

VIEW IN TELEGRAM

👍64😭52🤡14👨‍💻12🤔8💩3🤣2❤‍🔥1🔥1🌚1

22.4K views13:16

Сиолошная

Новостей так много, что я подумал, что проснулся в 2034-м 🤒 Так что следующие несколько постов будут покороче.

Самое главное — завтра (сегодня, 9-го июня) Anthropic планирует выпустить Mythos на публику. Модель будет сопровождаться очень жесткими фильтрами на каждый чих, особенно в задачах, связанных с кибербезопасностью.

Please open Telegram to view this post

VIEW IN TELEGRAM

13🤯245🔥66👍19🤣10🌚7🤔4❤‍🔥3👎3👨‍💻1

22.7K views03:47

Сиолошная

Ещё один бенчмарк, теперь от Cognition (авторов Devin) — FrontierCode (блог).

Здесь большой упор сделан на то, может ли агент написать код, который мейнтейнер репозитория с кодом может в один клик смерджить (то есть включить изменения в общий проект). Для этого надо соблюдать заданные правила репозитория: как выглядят тесты, что тесты не бессмысленны и ломаются, если что-то не так, комментарии адекватные, их не много, но и не мало, код написан хорошо итд.

В расширенной версии бенчмарка 150 задач, в основной 100, а в "золотой" версии — 50 (поэтому на картинке с метриками для каждой модели три столбика). Чтобы получить цифры, каждую задачу прогоняли по 5 раз.

Задачи брали из реальных репозиториев и привлекали основных разработчиков, которые тратили более 40 часов на каждую задачу (не чтобы написать код решения, а чтобы сделать описание + проверки качественно, составить рубрики проверки, предотвратить хаки моделями). При этом промпты с описанием что нужно сделать относительно короткие (но их длина фактически удваивается при добавлении правил репозитория о том, как должен выглядеть код).

На сайте больше деталей + есть детальная разбивка качества по разным reasoning effort (в цене, токенах, шагах агента, времени — очень детально).

Opus 4.8 xHigh обходит всех с большим запасом (страшно представить, что будет с Mythos...), GPT-5.5-medium чуть лучше Opus-4.7 (ждём GPT-5.6, доколе???), опенсурс и собственная моделька Cognition я бы сказал не всплывают. Жаль, что Composer 2.5 не померили.

16👍77🔥27❤‍🔥10🤔5💩3👨‍💻3

22.1K views04:05

Сиолошная

У Elon Musk в пятницу большой праздник — SpaceX выходит на IPO, а он почти наверняка станет первым триллионером в мире 😇

В преддверии IPO команда подготовила получасовой ролик с «технической информацией о возможностях SpaceX по производству, запуску и эксплуатации спутников с искусственным интеллектом в больших масштабах». Я пока посмотрел малую часть, остаток досмотрю днём, вот главное:

Общие характеристики спутника «AI1»:
• Средняя мощность вычислительной полезной нагрузки: 120 кВт.
• Это ровно столько, сколько ест серверная стойка на 72 видеокарты GB200 (у H100 было 30-40 кВТ), с учётом ЦПУ, памяти и прочих компонентов.
• Вычислительное оборудование взаимозаменяемо (в видео можно посмотреть, как маленькие сегменты подлетают и подключаются)

Габариты:
• Размах крыла солнечных панелей: 70 метров
• Высота в развернутом виде: 20 метров

Система терморегуляции Thermal System:
• Развертываемый жидкостный радиатор площадью 110 м²
• Дублирующие насосные контуры на случай отказа основного
• Встроенная защита от микрометеоритов
• Развертываемые жидкостные радиаторы
• В интернете разыскиваются эксперт, которые помогут оценить, хватит ли этого для охлаждения GPU

Elon: «ИИ-спутник устроен гораздо проще, чем спутник Starlink. По сути, ИИ-спутник — это огромное количество солнечных элементов; вам всё ещё требуются некоторые лазерные каналы связи, но в нём нет всех тех сверхсложных антенн, что есть на спутнике Starlink. Спроектировать ИИ-спутник проще. Он больше по размеру. Во многом это технологии, которые мы уже создали для спутников Starlink V3».

И параллельно с этим строится огромная фабрика по производству этих спутников + чипов для них, запуск планируется в конце 2027-го года. Наверное, какие-то тестовые полеты макетов спутников стоит ожидать до этого времени.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🤯221🔥85❤‍🔥40👍14👎10🤡9🎉74🌚3👨‍💻3🤣2

24.4K views04:19

Сиолошная

Новостей так много, что я подумал, что проснулся в 2034-м 🤒 Так что следующие несколько постов будут покороче. Самое главное — завтра (сегодня, 9-го июня) Anthropic планирует выпустить Mythos на публику. Модель будет сопровождаться очень жесткими фильтрами…

Mythos сегодня сразу после релиза, когда 100 пользователей спросили, сколько букв «r» в слове «strawberry»:

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

11🤣4122611🤡4🌚3🤔2

23.1K viewsedited 13:16

Сиолошная

Mythos сегодня сразу после релиза, когда 100 пользователей спросили, сколько букв «r» в слове «strawberry»:

🚨 TheInformation подтверждают, что «Mythos-class model» действительно выйдет сегодня (и будет называться Claude Fable), а вот вишенка на торте:

модель будет "всего" в 2 раза дороже Opus. Оригинальный Mythos предоставлялся по цене в 5 раз больше!

Но насколько я понимаю, это не именно Mythos-Mythos; модель и вправду больше и умнее Opus, и во многом может почти дотягиваться до Mythos. Чего гадать, ждём релиза.

Думаю, что при таком раскладе модель может быть доступна даже в $100 тире (а в $200 почти наверняка).

Please open Telegram to view this post

VIEW IN TELEGRAM

155🤡50🎉33❤‍🔥18🤔14👍104😭3🔥2

24.6K viewsedited 15:04

About

Blog

Apps

Platform