Сиолошная
Модель уже доступна на claude.ai, системная карточка тут, а метрики вот. Нравится, что на графиках скейлинга по оси OX — доллары, и видно, что на низком ризонинге модель всё равно лучше Opus.
Официальный анонс: https://www.anthropic.com/news/claude-fable-5-mythos-5
1) Fable 5 и Mythos 5 — одна и та же модель, но у последней чуть меньше защиты вокруг. Пощупать вторую вам не дадут, считайте, что доступен Fable 5
2) цена $10 per million input tokens and $50 per million output tokens — в два раза дороже Opus
3) помимо очевидного, очень прокачали вижн — модель проходит Pokemon Fire без разных хаков на парсинг информации игры, только по картинке.
4) теперь все запросы к Fable сохраняются на 30 дней, чтобы в фоне их анализировать и банить тех, кто хочет взломать модели, дистиллировать итд. На этих данных не будут учиться
И главное — до 22-го июня модель доступна в Claude Code в подписках за $20, $100 и $200 (и для энтерпрайза), а после будет только по API-ценам для всех. Но обещают, что если хватит мощностей, то могут передумать и вернуть в подписку.
1) Fable 5 и Mythos 5 — одна и та же модель, но у последней чуть меньше защиты вокруг. Пощупать вторую вам не дадут, считайте, что доступен Fable 5
2) цена $10 per million input tokens and $50 per million output tokens — в два раза дороже Opus
3) помимо очевидного, очень прокачали вижн — модель проходит Pokemon Fire без разных хаков на парсинг информации игры, только по картинке.
4) теперь все запросы к Fable сохраняются на 30 дней, чтобы в фоне их анализировать и банить тех, кто хочет взломать модели, дистиллировать итд. На этих данных не будут учиться
И главное — до 22-го июня модель доступна в Claude Code в подписках за $20, $100 и $200 (и для энтерпрайза), а после будет только по API-ценам для всех. Но обещают, что если хватит мощностей, то могут передумать и вернуть в подписку.
Anthropic
Claude Fable 5 and Claude Mythos 5
Today we’re launching Claude Fable 5: a Mythos-class model that we’ve made safe for general use.
7👍120❤🔥30🔥27🎉13😭11🤔9🤡5👨💻2
Сиолошная
Официальный анонс: https://www.anthropic.com/news/claude-fable-5-mythos-5 1) Fable 5 и Mythos 5 — одна и та же модель, но у последней чуть меньше защиты вокруг. Пощупать вторую вам не дадут, считайте, что доступен Fable 5 2) цена $10 per million input tokens…
Пу-пу-пу, OpenAI будет тяжело... где большие модели???
1🔥195🤯80 52 10🌚8👍4🤔3👨💻2👎1🤣1
Сиолошная
Официальный анонс: https://www.anthropic.com/news/claude-fable-5-mythos-5 1) Fable 5 и Mythos 5 — одна и та же модель, но у последней чуть меньше защиты вокруг. Пощупать вторую вам не дадут, считайте, что доступен Fable 5 2) цена $10 per million input tokens…
С релизом Fable 5 Anthropic добавили 2 новых меры предосторожности.
Первая простая и понятная: некоторые запросы будут направляться в Opus, если они кажутся системе какими-то странными. Сюда входят вопросы по биологии, кибербезопасности, химии или дистилляция моделей. Вы будете уведомлены, что отвечает другая модель.
А вот вторая — очень жесткая. Если системе покажется, что вы используете её для «запросов, нацеленных на разработку передовых LLM» — вы ничего не узнаете, но к модели будут применять:
1) модификацию промпта
2) добавление векторов в эмбеддинги модели (не ясно, что за вектора, но почти наверняка ухудшающие качество ответа, если не намеренный саботаж с выдаванием неправильной информации или нерабочего кода; ну или просто отуплять)
3) и даже аналоги LoRA (PEFT-методы), которые по сути меняют веса модели. Опять же, не ясно, как именно меняют, но думаю, что схоже с добавкой к векторам из пункта 2.
И ещё раз — вы даже не узнаете, что это произошло! Anthropic говорят, что это повлияет примерно на 0.03% запросов, что вроде бы немного.
Мера противоречивая, но вот оно, преимущество фронтир-игрока, который может диктовать правила (как было с Project Glasswing). Что вы сделаете? Заплачете? (в твиттере вот заплакали😀 )
Как результат — на некоторых бенчмарках, например, PostTrainBench, где модели нужно писать код для дообучения других моделей, Fable показывает себя на уровне Sonnet 4.6.
Первая простая и понятная: некоторые запросы будут направляться в Opus, если они кажутся системе какими-то странными. Сюда входят вопросы по биологии, кибербезопасности, химии или дистилляция моделей. Вы будете уведомлены, что отвечает другая модель.
А вот вторая — очень жесткая. Если системе покажется, что вы используете её для «запросов, нацеленных на разработку передовых LLM» — вы ничего не узнаете, но к модели будут применять:
1) модификацию промпта
2) добавление векторов в эмбеддинги модели (не ясно, что за вектора, но почти наверняка ухудшающие качество ответа, если не намеренный саботаж с выдаванием неправильной информации или нерабочего кода; ну или просто отуплять)
3) и даже аналоги LoRA (PEFT-методы), которые по сути меняют веса модели. Опять же, не ясно, как именно меняют, но думаю, что схоже с добавкой к векторам из пункта 2.
И ещё раз — вы даже не узнаете, что это произошло! Anthropic говорят, что это повлияет примерно на 0.03% запросов, что вроде бы немного.
Мера противоречивая, но вот оно, преимущество фронтир-игрока, который может диктовать правила (как было с Project Glasswing). Что вы сделаете? Заплачете? (в твиттере вот заплакали
Как результат — на некоторых бенчмарках, например, PostTrainBench, где модели нужно писать код для дообучения других моделей, Fable показывает себя на уровне Sonnet 4.6.
Please open Telegram to view this post
VIEW IN TELEGRAM
1👎175🤯129👍65🌚42😭18💩10🤔8👨💻6🤡4🤣4
Сиолошная
С релизом Fable 5 Anthropic добавили 2 новых меры предосторожности. Первая простая и понятная: некоторые запросы будут направляться в Opus, если они кажутся системе какими-то странными. Сюда входят вопросы по биологии, кибербезопасности, химии или дистилляция…
What did they mean by this
Сиолошная
Официальный анонс: https://www.anthropic.com/news/claude-fable-5-mythos-5 1) Fable 5 и Mythos 5 — одна и та же модель, но у последней чуть меньше защиты вокруг. Пощупать вторую вам не дадут, считайте, что доступен Fable 5 2) цена $10 per million input tokens…
В контексте выхода более дорогой, но способной Fable, которая даже в подписку входить не будет после 22-го июня, интересен вопрос: как будет расти выручка Anthropic дальше?
С одной стороны компании урезают или корректируют бюджеты на траты: уж слишком кусается цена, если платить по API-прайсу, а не как подписка с фиксированной ценой. Часть клиентов если не уйдет, то точно негативно повлияет на выручку.
С другой стороны, на место старых неудовлетворённых клиентов могут приходить новые и частично компенсировать это влияение на выручку.
Ну а с третьей — модели становятся дороже, но их всё равно кто-то да будет использовать. Mythos пока был за закрытыми дверями и использовался для анализа кода на предмет уязвимостей был платным. Хоть сама история со сканированием кода разовая, круг компаний расширяется, плюс условно раз в полгода будет выходить модель сильно лучше, так что имеет смысл прогонять весь код на предмет уязвимостей снова (или не весь, а только самые критичные части).
Более того более способные модели будут браться за более аммбициозные задачи и работать дольше, тем самым поднимая выручку.
Так что будет с выручкой? Застынет на месте и будет колебаться на этом же уровне до конца года? Продолжит расти бешеными темпами? Начнёт падать? Или покажет лишь умеренный рост?
У меня нет понимания, так как мы не имеем знаний о структуре выручки Anthropic, и какая доля на сколько компаний какого размера приходится. Я не думаю, что выручка упадёт — в худшем случае весь отток будет компенсироваться остальными тремя пунктами. С другой стороны продолжения взрывного роста, как это было в этом квартале, тоже пока не ожидаю.
Будем вести наблюдение и очень ждём публикации документов для IPO!
С одной стороны компании урезают или корректируют бюджеты на траты: уж слишком кусается цена, если платить по API-прайсу, а не как подписка с фиксированной ценой. Часть клиентов если не уйдет, то точно негативно повлияет на выручку.
С другой стороны, на место старых неудовлетворённых клиентов могут приходить новые и частично компенсировать это влияение на выручку.
Ну а с третьей — модели становятся дороже, но их всё равно кто-то да будет использовать. Mythos пока был за закрытыми дверями и использовался для анализа кода на предмет уязвимостей был платным. Хоть сама история со сканированием кода разовая, круг компаний расширяется, плюс условно раз в полгода будет выходить модель сильно лучше, так что имеет смысл прогонять весь код на предмет уязвимостей снова (или не весь, а только самые критичные части).
Более того более способные модели будут браться за более аммбициозные задачи и работать дольше, тем самым поднимая выручку.
Так что будет с выручкой? Застынет на месте и будет колебаться на этом же уровне до конца года? Продолжит расти бешеными темпами? Начнёт падать? Или покажет лишь умеренный рост?
У меня нет понимания, так как мы не имеем знаний о структуре выручки Anthropic, и какая доля на сколько компаний какого размера приходится. Я не думаю, что выручка упадёт — в худшем случае весь отток будет компенсироваться остальными тремя пунктами. С другой стороны продолжения взрывного роста, как это было в этом квартале, тоже пока не ожидаю.
Будем вести наблюдение и очень ждём публикации документов для IPO!
👍119 34🤔21👨💻5🤡4🌚3👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Гифка для следующего поста, так как Пашка-пушка не придумал, как отправить и картинку, и гифку вместе.
9👍49🤯16🤣12👨💻7🤔6🌚3
Сиолошная
Гифка для следующего поста, так как Пашка-пушка не придумал, как отправить и картинку, и гифку вместе.
Google выложили DiffusionGemma — модель на 26B параметров с 4B активных, с архитектурой Gemma 4, и которая генерирует по 256 токенов за раз. Но так как получается неразбериха, то эти токены перегенерируются несколько раз.
То есть это работает так же, как пошаговая генерация картинки, где каждая последующая генерация «выравнивает», что уже было нарисовано (или в данном случае написано). Гифка с примером генерации — выше этого поста.
На картинке в этом посте метрики и скорость (самый левый столбик) — на одной H100 в FP8 модель развивает более 1000 токенов в секунду, по сравнению с 303 для Gemma 4 с MTP (предсказание нескольких токенов за раз). Обещают 700 токенов на 5090.
DiffusionGemma послабее четверки, это превью технологии, и я вообще удивлён, что это ещё и рассуждающая модель — да-да!
Веса тут, визуальный гайд с объяснением принципа работы тут; модель поддержана уже везде, VLLM, Unsloth итд — можно загружать и играться. А вот тут можно погенерировать код с этой моделью бесплатно (и смотреть, как на лету делаются правки).
То есть это работает так же, как пошаговая генерация картинки, где каждая последующая генерация «выравнивает», что уже было нарисовано (или в данном случае написано). Гифка с примером генерации — выше этого поста.
На картинке в этом посте метрики и скорость (самый левый столбик) — на одной H100 в FP8 модель развивает более 1000 токенов в секунду, по сравнению с 303 для Gemma 4 с MTP (предсказание нескольких токенов за раз). Обещают 700 токенов на 5090.
DiffusionGemma послабее четверки, это превью технологии, и я вообще удивлён, что это ещё и рассуждающая модель — да-да!
Веса тут, визуальный гайд с объяснением принципа работы тут; модель поддержана уже везде, VLLM, Unsloth итд — можно загружать и играться. А вот тут можно погенерировать код с этой моделью бесплатно (и смотреть, как на лету делаются правки).
1🔥146👍47❤🔥13🤯10👨💻2🤔1
8 лет назад тоже казалось нереальным запустить Starlink: нужно было уж очень много запусков, а ракеты ещё не были настолько многоразовыми.
Но оказалось, что Falcon 9 может быть запущеным и сесть на площадку ТРИДЦАТЬ МАТЬ ЕГО ПЯТЬ РАЗ (накануне рекорд поставили) — я помню, как в какой-то момент лицензию расширяли до 15 и это казалось «вау», мол, как так, целых 15 раз одна ракета может сесть???
Сейчас на орбите около 14 тысяч спутников, из которых.... десять тысяч — Starlink (мне очень нравится, как группировку спутников называют «constellation», созвездие).
Датацентры в космосе, по аналогии, тоже не выглядят здравой идеей. Нужно столько пусков! Это дорого! Сейчас — да, но Elon, очевидно, ставит на развитие — как и Google, как и Amazon, которые анонсировали схожие проекты.
Спросил у GPT-5.5 Pro сколько спутников влезет в Starship v3 и будущий v4 с учётом орбиты, на которую будут запускать AI-1. Оценки разнятся, и выглядит так, что может упереться даже не в массу, а в объем отсека для спутников.
Один v3 сможет вывести реалистично 35-40 спутников (оптимистично — 50, на чуть другую орбиту, которая тоже была в заявке, поданной SpaceX для резервации части космоса). v4 — ровно в 2 раза больше, если влезет (но и корабль там планируют удлиннить).
40 спутников — это 40 стоек с 72 очень мощными видеокартами за один пуск, или 2880 запущенных GPU. По мощности получается одна двухсотая ГигаВатта, то есть нужно 200 пусков (или 100 v4), чтобы собрать приблизительно столько же мощностей, сколько в 1 очень крупном датацентре, состоящем из нескольких корпусов. Много? да. Но это похоже на то, под что затачивались Starship — помню, что планировалось по 100 пусков каждого корабля, а там кто знает, на сколько расширят лицензию😇
Но оказалось, что Falcon 9 может быть запущеным и сесть на площадку ТРИДЦАТЬ МАТЬ ЕГО ПЯТЬ РАЗ (накануне рекорд поставили) — я помню, как в какой-то момент лицензию расширяли до 15 и это казалось «вау», мол, как так, целых 15 раз одна ракета может сесть???
Сейчас на орбите около 14 тысяч спутников, из которых.... десять тысяч — Starlink (мне очень нравится, как группировку спутников называют «constellation», созвездие).
Датацентры в космосе, по аналогии, тоже не выглядят здравой идеей. Нужно столько пусков! Это дорого! Сейчас — да, но Elon, очевидно, ставит на развитие — как и Google, как и Amazon, которые анонсировали схожие проекты.
Спросил у GPT-5.5 Pro сколько спутников влезет в Starship v3 и будущий v4 с учётом орбиты, на которую будут запускать AI-1. Оценки разнятся, и выглядит так, что может упереться даже не в массу, а в объем отсека для спутников.
Один v3 сможет вывести реалистично 35-40 спутников (оптимистично — 50, на чуть другую орбиту, которая тоже была в заявке, поданной SpaceX для резервации части космоса). v4 — ровно в 2 раза больше, если влезет (но и корабль там планируют удлиннить).
40 спутников — это 40 стоек с 72 очень мощными видеокартами за один пуск, или 2880 запущенных GPU. По мощности получается одна двухсотая ГигаВатта, то есть нужно 200 пусков (или 100 v4), чтобы собрать приблизительно столько же мощностей, сколько в 1 очень крупном датацентре, состоящем из нескольких корпусов. Много? да. Но это похоже на то, под что затачивались Starship — помню, что планировалось по 100 пусков каждого корабля, а там кто знает, на сколько расширят лицензию
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤🔥156👍78🔥42🤡27🤔7🌚7 6👨💻2🎉1🤣1
Две новости в одной:
— Anthropic откатили обратно «скрытое» ухудшение ответов Fable, если запрос касался потенциальной разработки конкурирующих технологий / фронтир LLM. Теперь вместо этого будет явный отказ (как и по другим отфильтрованным темам) и откат на Opus 4.8. В API будут писать конкретную причину.
— OpenAI «рассматривает возможность резкого снижения цен, опасаясь войны за пользователей с Anthropic». В новости написано, что они могут пойти на этот шаг потому, что Anthropic рассматривает точно такую же стратегию, и их можно опередить. Если Anthropic промедлит, то OpenAI может отжать часть клиентов и выручки, особенно энтерпрайз.
— Anthropic откатили обратно «скрытое» ухудшение ответов Fable, если запрос касался потенциальной разработки конкурирующих технологий / фронтир LLM. Теперь вместо этого будет явный отказ (как и по другим отфильтрованным темам) и откат на Opus 4.8. В API будут писать конкретную причину.
— OpenAI «рассматривает возможность резкого снижения цен, опасаясь войны за пользователей с Anthropic». В новости написано, что они могут пойти на этот шаг потому, что Anthropic рассматривает точно такую же стратегию, и их можно опередить. Если Anthropic промедлит, то OpenAI может отжать часть клиентов и выручки, особенно энтерпрайз.
5🤯209🔥127❤🔥37👍24🤣24🤔4👨💻3
Сиолошная
У Elon Musk в пятницу большой праздник — SpaceX выходит на IPO, а он почти наверняка станет первым триллионером в мире 😇
Нажал на кнопку — вывел компанию на биржу — стал триллионером. Вот так просто 😀
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤🔥139🎉75💩37🔥18 16🤣15🌚10🤡5👍3🤔2👨💻2
Сиолошная
Две новости в одной: — Anthropic откатили обратно «скрытое» ухудшение ответов Fable, если запрос касался потенциальной разработки конкурирующих технологий / фронтир LLM. Теперь вместо этого будет явный отказ (как и по другим отфильтрованным темам) и откат…
До выхода Opus 4.5 многие сидели на Sonnet 4.5 — он казался достаточно умным, и в то же время его можно было использовать по подписке гораздо больше, чем Opus, который с выходом 4.5 подешевел в 3 раза. Так что звёзды сложились так, что почти все переехали на «тяжелый дорогой» Opus.
Но для сравнения и перспективы:
— Opus 4.8 стоит $5/$25
— Fable 5 в два раза дороже, $10/$50
— Opus 4 / 4.1 стоили $15/$75, дороже Mythos-class моделей!
— GPT-4 на релизе стоила $30/$60, и целых $60/$120 если контекст длиннее невероятных 8 тысяч токенов
— GPT-3 стоила $40 (и $80 если вы покупали пакет токенов поменьше) и не разделяла вход и выход, так что $40/$40
И это не говоря про то, что за входные токены мы зачастую платим с большой скидкой в 50-90%, так как они кэшируются.
GPT-3 стоила дороже Opus 4.8 и почти наверняка дороже Fable 5 в реалистичных сценариях.
И вот мы на пороге потенциальной ценовой войны Anthropic <-> OpenAI, и, возможно, через год мы будем иметь Mythos-class модели по цене Sonnet-ов или чуть дороже. Невероятно.
(ноооооо если спрос продолжит расти, то придётся снова задирать цены, так как не смогут обслуживать всех😦 )
Но для сравнения и перспективы:
— Opus 4.8 стоит $5/$25
— Fable 5 в два раза дороже, $10/$50
— Opus 4 / 4.1 стоили $15/$75, дороже Mythos-class моделей!
— GPT-4 на релизе стоила $30/$60, и целых $60/$120 если контекст длиннее невероятных 8 тысяч токенов
— GPT-3 стоила $40 (и $80 если вы покупали пакет токенов поменьше) и не разделяла вход и выход, так что $40/$40
И это не говоря про то, что за входные токены мы зачастую платим с большой скидкой в 50-90%, так как они кэшируются.
GPT-3 стоила дороже Opus 4.8 и почти наверняка дороже Fable 5 в реалистичных сценариях.
И вот мы на пороге потенциальной ценовой войны Anthropic <-> OpenAI, и, возможно, через год мы будем иметь Mythos-class модели по цене Sonnet-ов или чуть дороже. Невероятно.
(ноооооо если спрос продолжит расти, то придётся снова задирать цены, так как не смогут обслуживать всех
Please open Telegram to view this post
VIEW IN TELEGRAM
11❤🔥227🔥91👍41🤡14🤔11🤯7🎉7 6🤣3👨💻1
Сиолошная
Новость 2: Epoch.AI, авторы этого бенчмарка, отчитались о том, что делают внимательную вычитку ответов и решений, и выяснили, что около ... трети всех задач имеют неправильные
Наконец-то авторы FrontierMath прочесали ответы для задач, исправили ошибки, выкинули часть проблем и пересчитали оценки. Скачок получился... большим 😕
Большая часть ошибок — это потеря знака (плюс на минус и наоборот) в вычислениях людей и/или переносе решения в код для проверки, а также ошибка на +-1. Humans, what to say — большую часть ошибок помогла найти GPT-5.5
На первой картинке изменения в оценках для моделей GPT в tier 1-3 (полегче) и tier 4 (посложнее). На второй — абсолютный топ tier-4. Раньше каждая решённая задача в tier 4 сопровождалась комментариями от математика, принимавшего участие в её составлении; они писали, мол, я сам-то не сразу догадался, а модель вот нашла способ и придумала и вообще круто что такую сложную задачу берёт!
...а теперь оказалось, что зарешано 76% задач😇 пу-пу-пу, только на FrontierMath Open Problems и надеемся
UPD: Fable занял топ-1 на Tier-4 с 88%, всё, бенчмарк можно закрывать...
Большая часть ошибок — это потеря знака (плюс на минус и наоборот) в вычислениях людей и/или переносе решения в код для проверки, а также ошибка на +-1. Humans, what to say — большую часть ошибок помогла найти GPT-5.5
На первой картинке изменения в оценках для моделей GPT в tier 1-3 (полегче) и tier 4 (посложнее). На второй — абсолютный топ tier-4. Раньше каждая решённая задача в tier 4 сопровождалась комментариями от математика, принимавшего участие в её составлении; они писали, мол, я сам-то не сразу догадался, а модель вот нашла способ и придумала и вообще круто что такую сложную задачу берёт!
...а теперь оказалось, что зарешано 76% задач
UPD: Fable занял топ-1 на Tier-4 с 88%, всё, бенчмарк можно закрывать...
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥144👍32🤡20🤣14 8🤯7🤔2👨💻2🎉1
Американское правительство ввело экспортный контроль на... Fable 5 / Mythos 5. На данный момент все страны, кроме США, не имеют права пользоваться моделью; кроме этого, люди без гражданства США не должны пользоваться моделью даже в Штатах.
Это правило применимо даже к сотрудникам Anthropic. Я не знаю, получил ли гражданство условный Andrej Karpathy, но если нет — он не может пользоваться этой моделью даже при работе на работе.
Приказ вступает в силу незамедлительно, компания уже отрубила доступы. (UPD: меня поправили, что на данный момент доступ отключили вообще всем, так как нельзя быстро разобраться, кто гражданин и где он находится)
Ответ Anthropic тут, TLDR:
— причина в том, что появились джейлбрейки, которые обходят систему безопасности Anthropic
— конкретных примеров предоставлено не было
— «Как мы уже публично заявляли, мы считаем, что правительство должно иметь возможность блокировать небезопасные развертывания моделей в рамках установленной законом процедуры, которая является прозрачной, справедливой, ясной и основанной на технических фактах. Данное действие не соответствует этим принципам»
В ближайшие 24 часа Anthropic обещают выпустить более полный ответ, но говорят, что у них на руках есть отчёт, в котором указано, что GPT-5.5 тоже уязвима, но почему-то не забанена.
The real permanent underclass was lack of US citizenship all along...
К другим новостям, появилось видео с GPT-5.6, проходящей тестирование государством, чтобы избежать экспортных ограничений:
Это правило применимо даже к сотрудникам Anthropic. Я не знаю, получил ли гражданство условный Andrej Karpathy, но если нет — он не может пользоваться этой моделью даже при работе на работе.
Приказ вступает в силу незамедлительно, компания уже отрубила доступы. (UPD: меня поправили, что на данный момент доступ отключили вообще всем, так как нельзя быстро разобраться, кто гражданин и где он находится)
Ответ Anthropic тут, TLDR:
— причина в том, что появились джейлбрейки, которые обходят систему безопасности Anthropic
— конкретных примеров предоставлено не было
— «Как мы уже публично заявляли, мы считаем, что правительство должно иметь возможность блокировать небезопасные развертывания моделей в рамках установленной законом процедуры, которая является прозрачной, справедливой, ясной и основанной на технических фактах. Данное действие не соответствует этим принципам»
В ближайшие 24 часа Anthropic обещают выпустить более полный ответ, но говорят, что у них на руках есть отчёт, в котором указано, что GPT-5.5 тоже уязвима, но почему-то не забанена.
The real permanent underclass was lack of US citizenship all along...
К другим новостям, появилось видео с GPT-5.6, проходящей тестирование государством, чтобы избежать экспортных ограничений:
This media is not supported in your browser
VIEW IN TELEGRAM
1🤣305🤯189😭43🤡28🌚10💩7👍6🤔6💔2👨💻2👎1
Мониторим ситуацию: что стало известно про запрет на экспорт Fable / Mythos от Anthropic. Ссылки: 1, 2, 3, 4, 5, 6.
— перед релизом Fable Anthropic работали с USG (US government, правительство) над мерами безопасности. Обе стороны описывают сотрудничество как «продуктивное». Вполне вероятно, хотя прямого подтверждения ни с одной из сторон нет, что та самая мера по бесшумному ухудшению модели в определённых ситуациях (в купе со всеми другими методами защиты) — это результат совместной работы, который позволил выпустить Fable.
— Anthropic не получили прямого запрета на запуск модели и, собственно, сделали её доступной всем во вторник, 9-го июня (и немногим погодя откатили часть методов защиты, хоть концептуально ничего не поменялось: в случае определённых запросов полный Mythos не будет отвечать, вместо него или пустой ответ, или от Opus 4.8). В одном из источников написано, что они наоборот даже получили одобрение на запуск модели.
— после релиза исследователи из Amazon использовали серию промптов, чтобы заставить модель выдать информацию, которая могла бы помочь в организации кибератак и должна была быть заблокирована. Об этом CEO Amazon Andy Jassy сообщил чиновникам в четверг, мол, так и так, мы обеспокоены, есть вот такой джейлбрейк для Fable. Деталей джейлбрейка пока не было опубликовано, хотя существует некоторый отчёт, который был доступ ограниченному кругу лиц.
— со слов USG, с их стороны уязвимость якобы подтвердили в АНБ и сочли, что у них есть доказательство уязвимости Anthropic.
— в пятницу в полдень представители администрации хотели связаться с CEO Anthropic, однако тот был... на «оздоровительном отдыхе». Представители Anthropic опровергают эту информацию, но соглашаются, что Dario Amodei вышел на связь с USG только через ~75 минут. Я не думаю, что Dario в ту же неделю, что выпустил клёвую модель, сидел отдыхал — вероятно, он с юристами и своей командой думал, что делать и что говорить.
— далее было 3 звонка с более чем 7 представителями USG, которые объясняли, что их «доверенный партнёр» (Amazon) и АНБ нашли джейлбрейк, и просили отключить доступ к Fable + улучшить меры безопасности. Dario пытался объяснить, что это минорная проблема, сам джейлбрейк не очень общий (то есть не позволяет выпытать любую информацию из Mythos), и отказывался отключать модель.
— в ходе звонков Dario просил дать ему больше времени и конкретики, что именно не так, чтобы проработать вопрос, но не пообещал отключить модель.
— по результатам переговоров USG дали Anthropic 90 минут на добровольное отключение модели. Anthropic не стали ничего делать — с их слов, они не считали проблему большой, плюс они не видели каких-то формальных доказательств серьёзности проблемы, «правительство предоставило нам лишь устные доказательства потенциального узкого, не общего джейлбрейка». И также упомянули, что тот же подход работает и с GPT-5.5 (я так понимаю, что работает не только обход систем защиты, но и то, что модель выдаёт конкретную часть информации в ответ на запрос).
— вечером пятницы Anthropic получили письмо счастья на экспортный контроль и отключили модель.
И немного про будущее:
— согласно письму Министерства торговли, для предоставления доустпа к модели внутри страны потребуется лицензия. Кроме того, Anthropic придется подавать дополнительную заявку на получение индивидуально утверждаемых лицензий👨🦳 (но я не понял контекст этого заявления — это в случае, если ограничения останутся? или вообще?)
— представители Белого дома заявляют, что скорее всего не станут распространять экспортные ограничения на другие ИИ-компании
— Администрация президента «откровенно сбита с толку» тем, что Anthropic не захотела выполнять требования по безопасности, которые сама же ранее называла своим главным приоритетом.
— перед релизом Fable Anthropic работали с USG (US government, правительство) над мерами безопасности. Обе стороны описывают сотрудничество как «продуктивное». Вполне вероятно, хотя прямого подтверждения ни с одной из сторон нет, что та самая мера по бесшумному ухудшению модели в определённых ситуациях (в купе со всеми другими методами защиты) — это результат совместной работы, который позволил выпустить Fable.
— Anthropic не получили прямого запрета на запуск модели и, собственно, сделали её доступной всем во вторник, 9-го июня (и немногим погодя откатили часть методов защиты, хоть концептуально ничего не поменялось: в случае определённых запросов полный Mythos не будет отвечать, вместо него или пустой ответ, или от Opus 4.8). В одном из источников написано, что они наоборот даже получили одобрение на запуск модели.
— после релиза исследователи из Amazon использовали серию промптов, чтобы заставить модель выдать информацию, которая могла бы помочь в организации кибератак и должна была быть заблокирована. Об этом CEO Amazon Andy Jassy сообщил чиновникам в четверг, мол, так и так, мы обеспокоены, есть вот такой джейлбрейк для Fable. Деталей джейлбрейка пока не было опубликовано, хотя существует некоторый отчёт, который был доступ ограниченному кругу лиц.
— со слов USG, с их стороны уязвимость якобы подтвердили в АНБ и сочли, что у них есть доказательство уязвимости Anthropic.
— в пятницу в полдень представители администрации хотели связаться с CEO Anthropic, однако тот был... на «оздоровительном отдыхе». Представители Anthropic опровергают эту информацию, но соглашаются, что Dario Amodei вышел на связь с USG только через ~75 минут. Я не думаю, что Dario в ту же неделю, что выпустил клёвую модель, сидел отдыхал — вероятно, он с юристами и своей командой думал, что делать и что говорить.
— далее было 3 звонка с более чем 7 представителями USG, которые объясняли, что их «доверенный партнёр» (Amazon) и АНБ нашли джейлбрейк, и просили отключить доступ к Fable + улучшить меры безопасности. Dario пытался объяснить, что это минорная проблема, сам джейлбрейк не очень общий (то есть не позволяет выпытать любую информацию из Mythos), и отказывался отключать модель.
— в ходе звонков Dario просил дать ему больше времени и конкретики, что именно не так, чтобы проработать вопрос, но не пообещал отключить модель.
— по результатам переговоров USG дали Anthropic 90 минут на добровольное отключение модели. Anthropic не стали ничего делать — с их слов, они не считали проблему большой, плюс они не видели каких-то формальных доказательств серьёзности проблемы, «правительство предоставило нам лишь устные доказательства потенциального узкого, не общего джейлбрейка». И также упомянули, что тот же подход работает и с GPT-5.5 (я так понимаю, что работает не только обход систем защиты, но и то, что модель выдаёт конкретную часть информации в ответ на запрос).
— вечером пятницы Anthropic получили письмо счастья на экспортный контроль и отключили модель.
И немного про будущее:
— согласно письму Министерства торговли, для предоставления доустпа к модели внутри страны потребуется лицензия. Кроме того, Anthropic придется подавать дополнительную заявку на получение индивидуально утверждаемых лицензий
— представители Белого дома заявляют, что скорее всего не станут распространять экспортные ограничения на другие ИИ-компании
— Администрация президента «откровенно сбита с толку» тем, что Anthropic не захотела выполнять требования по безопасности, которые сама же ранее называла своим главным приоритетом.
Please open Telegram to view this post
VIEW IN TELEGRAM
3🤣237👍56💩33🤡28🤔19 16👨💻9🤯6❤🔥4🌚2😭1
Теперь дополнительный контекст к новости:
— Amazon крупный инвестор и партнёр Anthropic. Я не думаю, что они хотели, чтобы докатилось до подобных ограничений и жестких стычек с USG — и даже не могли такого представить
— я удивлён, что USG смогли так быстро отреагировать — от информации о проблеме в четверг через проверку АНБ до уведомления Anthropic в пятницу в полдень. Возможно, это обусловлено тем, что не всем нравится поведение компании, и USG хочет показать, кто тут папа.
— из всех перечисленных в новостях фамилий участников созвонов Dario в пятницу, ни один из них не имеет бэкграунда в AI/ML, и лишь парочка понимает что-то в кибербезе. Да, возможно за ними стоят эксперты из министерств, но странно, что они на звонках принимали решение о том, является ли правдой ответ Dario, мол, это минорная проблема, дайте нам время. То есть они даже не рассматривали возможность того, что они не правы — как будто у них есть твёрдое и четкое убеждение.
— напомню, что идеальных систем защиты для языковых моделей пока никто не придумал, вокруг всех из них есть способы обхода. Джейлбрейки находили и будут находить, и по-хорошему нужен быстрый процесс добавления исключений (вполне возможно, что у Anthropic такой механизм есть).
— скорее всего USG хотели, чтобы Anthropic залатали одну конкретную дыру, не понимая, что это мало на что влияет — ну было 100 джейлбрейков, станет 99. Важнее, что компания должна по щелчку пальцев реагировать на то, что им говорят представители Белого дома
— мне сложно поверить, что Dario не шел на встречу и не хотел сотрудничать. Вероятно, он и хотел добавить джейлбрейк в систему, чтобы исправить ситуацию, но USG-то а) не давало деталей б) просили сразу же выключить модель. Я понимаю Dario, но и понимаю давление от администрации
— «ко-ко-ко но они же сами хотели регуляций и чтоб государство отказывало в выпуске моделей!» — самый дебильный аргумент, который я слышал за последние дни. Как пишут Anthropic в блоге (99% комментаторов не читает) — «Как мы уже заявляли публично, мы считаем, что у правительства должна быть возможность блокировать небезопасное развертывание моделей, но в рамках установленного законом процесса — прозрачного, справедливого, понятного и основанного на технических фактах. Данные действия не соответствуют этим принципам»
— более того в совсем свежем executive order от президента написано, что а) такую процедуру нужно запустить в ближайшие полгода б) она пока будет ДОБРОВОЛЬНОЙ, если компания не хочет — она может не отправлять модель на оценку, и как следствие её не заблокируют. Я уже писал, что там отдельно прям подчёркнуто, что это не заградительная мера на данный момент. И в то же время без чёткого процесса приходят в Anthropic и говорят «отключайте» — при том что, согласно новостям, дали одобрение на релиз
— то есть ещё раз: должен быть понятный прозрачный процесс с чёткими критерями и независимой оценкой, и Anthropic согласны следовать ему
— очень вероятно, что модель для США вернут в самое ближайшее время, а вот что будет с доступом для остальных — не ясно. В теории, раз он был для всех, и именно этот аспект не смущал USG, то видимо снова откроют для всех (после снятия экспортных ограничений). Но предсказывать, что тут хотят делать так называемые «представители от народа» — то ещё дело😀
— позиция государства, озвученная David Sacks, бывшим AI-царём при Белом доме: «В прошлом компания Anthropic всегда заявляла, что безопасность должна быть первостепенной задачей и восприниматься крайне серьезно. В данном случае Anthropic отдала приоритет предоставлению модели для клиентов, а не безопасности». Формально это так, но если реальная уязвимость действительно слабая, как говорят Anthropic, то аргумент бредовый. Как я написал выше, ни одна система защиты не идеальна, и OpenAI/Anthropic всё равно тратят на них больше, чем все остальные игроки (может даже вместе взятые, если вычесть Google).
— для фронтир-компаний очень важно поддерживать хорошие отношения с государством в этот непростой и важный период введения регуляций и проверок👨🦳 👨🦳 и Anthropic тут пока проигрывает 0-2
— Amazon крупный инвестор и партнёр Anthropic. Я не думаю, что они хотели, чтобы докатилось до подобных ограничений и жестких стычек с USG — и даже не могли такого представить
— я удивлён, что USG смогли так быстро отреагировать — от информации о проблеме в четверг через проверку АНБ до уведомления Anthropic в пятницу в полдень. Возможно, это обусловлено тем, что не всем нравится поведение компании, и USG хочет показать, кто тут папа.
— из всех перечисленных в новостях фамилий участников созвонов Dario в пятницу, ни один из них не имеет бэкграунда в AI/ML, и лишь парочка понимает что-то в кибербезе. Да, возможно за ними стоят эксперты из министерств, но странно, что они на звонках принимали решение о том, является ли правдой ответ Dario, мол, это минорная проблема, дайте нам время. То есть они даже не рассматривали возможность того, что они не правы — как будто у них есть твёрдое и четкое убеждение.
— напомню, что идеальных систем защиты для языковых моделей пока никто не придумал, вокруг всех из них есть способы обхода. Джейлбрейки находили и будут находить, и по-хорошему нужен быстрый процесс добавления исключений (вполне возможно, что у Anthropic такой механизм есть).
— скорее всего USG хотели, чтобы Anthropic залатали одну конкретную дыру, не понимая, что это мало на что влияет — ну было 100 джейлбрейков, станет 99. Важнее, что компания должна по щелчку пальцев реагировать на то, что им говорят представители Белого дома
— мне сложно поверить, что Dario не шел на встречу и не хотел сотрудничать. Вероятно, он и хотел добавить джейлбрейк в систему, чтобы исправить ситуацию, но USG-то а) не давало деталей б) просили сразу же выключить модель. Я понимаю Dario, но и понимаю давление от администрации
— «ко-ко-ко но они же сами хотели регуляций и чтоб государство отказывало в выпуске моделей!» — самый дебильный аргумент, который я слышал за последние дни. Как пишут Anthropic в блоге (99% комментаторов не читает) — «Как мы уже заявляли публично, мы считаем, что у правительства должна быть возможность блокировать небезопасное развертывание моделей, но в рамках установленного законом процесса — прозрачного, справедливого, понятного и основанного на технических фактах. Данные действия не соответствуют этим принципам»
— более того в совсем свежем executive order от президента написано, что а) такую процедуру нужно запустить в ближайшие полгода б) она пока будет ДОБРОВОЛЬНОЙ, если компания не хочет — она может не отправлять модель на оценку, и как следствие её не заблокируют. Я уже писал, что там отдельно прям подчёркнуто, что это не заградительная мера на данный момент. И в то же время без чёткого процесса приходят в Anthropic и говорят «отключайте» — при том что, согласно новостям, дали одобрение на релиз
— то есть ещё раз: должен быть понятный прозрачный процесс с чёткими критерями и независимой оценкой, и Anthropic согласны следовать ему
— очень вероятно, что модель для США вернут в самое ближайшее время, а вот что будет с доступом для остальных — не ясно. В теории, раз он был для всех, и именно этот аспект не смущал USG, то видимо снова откроют для всех (после снятия экспортных ограничений). Но предсказывать, что тут хотят делать так называемые «представители от народа» — то ещё дело
— позиция государства, озвученная David Sacks, бывшим AI-царём при Белом доме: «В прошлом компания Anthropic всегда заявляла, что безопасность должна быть первостепенной задачей и восприниматься крайне серьезно. В данном случае Anthropic отдала приоритет предоставлению модели для клиентов, а не безопасности». Формально это так, но если реальная уязвимость действительно слабая, как говорят Anthropic, то аргумент бредовый. Как я написал выше, ни одна система защиты не идеальна, и OpenAI/Anthropic всё равно тратят на них больше, чем все остальные игроки (может даже вместе взятые, если вычесть Google).
— для фронтир-компаний очень важно поддерживать хорошие отношения с государством в этот непростой и важный период введения регуляций и проверок
Please open Telegram to view this post
VIEW IN TELEGRAM
6❤🔥126👍76🌚30🤡24🤔11 10🤣6🔥4💩4👨💻3👎2