Сиолошная

Mythos сегодня сразу после релиза, когда 100 пользователей спросили, сколько букв «r» в слове «strawberry»:

🚨 TheInformation подтверждают, что «Mythos-class model» действительно выйдет сегодня (и будет называться Claude Fable), а вот вишенка на торте:

модель будет "всего" в 2 раза дороже Opus. Оригинальный Mythos предоставлялся по цене в 5 раз больше!

Но насколько я понимаю, это не именно Mythos-Mythos; модель и вправду больше и умнее Opus, и во многом может почти дотягиваться до Mythos. Чего гадать, ждём релиза.

Думаю, что при таком раскладе модель может быть доступна даже в $100 тире (а в $200 почти наверняка).

Please open Telegram to view this post

VIEW IN TELEGRAM

155🤡50🎉33❤‍🔥18🤔14👍104😭3🔥2

24.7K viewsedited 15:04

Сиолошная

🚨 TheInformation подтверждают, что «Mythos-class model» действительно выйдет сегодня (и будет называться Claude Fable), а вот вишенка на торте: модель будет "всего" в 2 раза дороже Opus. Оригинальный Mythos предоставлялся по цене в 5 раз больше! Но насколько…

Модель уже доступна на claude.ai, системная карточка тут, а метрики вот. Нравится, что на графиках скейлинга по оси OX — доллары, и видно, что на низком ризонинге модель всё равно лучше Opus.

3🔥127🤔18👍13🤯7❤‍🔥2🤡1

32.2K views17:02

Сиолошная

Официальный анонс: https://www.anthropic.com/news/claude-fable-5-mythos-5

1) Fable 5 и Mythos 5 — одна и та же модель, но у последней чуть меньше защиты вокруг. Пощупать вторую вам не дадут, считайте, что доступен Fable 5
2) цена $10 per million input tokens and $50 per million output tokens — в два раза дороже Opus
3) помимо очевидного, очень прокачали вижн — модель проходит Pokemon Fire без разных хаков на парсинг информации игры, только по картинке.
4) теперь все запросы к Fable сохраняются на 30 дней, чтобы в фоне их анализировать и банить тех, кто хочет взломать модели, дистиллировать итд. На этих данных не будут учиться

И главное — до 22-го июня модель доступна в Claude Code в подписках за $20, $100 и $200 (и для энтерпрайза), а после будет только по API-ценам для всех. Но обещают, что если хватит мощностей, то могут передумать и вернуть в подписку.

Anthropic

Claude Fable 5 and Claude Mythos 5

Today we’re launching Claude Fable 5: a Mythos-class model that we’ve made safe for general use.

7👍120❤‍🔥30🔥27🎉13😭11🤔9🤡5👨‍💻2

25.5K viewsedited 17:13

Сиолошная

Пу-пу-пу, OpenAI будет тяжело... где большие модели???

1🔥195🤯805210🌚8👍4🤔3👨‍💻2👎1🤣1

27.5K views17:17

Сиолошная

С релизом Fable 5 Anthropic добавили 2 новых меры предосторожности.

Первая простая и понятная: некоторые запросы будут направляться в Opus, если они кажутся системе какими-то странными. Сюда входят вопросы по биологии, кибербезопасности, химии или дистилляция моделей. Вы будете уведомлены, что отвечает другая модель.

А вот вторая — очень жесткая. Если системе покажется, что вы используете её для «запросов, нацеленных на разработку передовых LLM» — вы ничего не узнаете, но к модели будут применять:
1) модификацию промпта
2) добавление векторов в эмбеддинги модели (не ясно, что за вектора, но почти наверняка ухудшающие качество ответа, если не намеренный саботаж с выдаванием неправильной информации или нерабочего кода; ну или просто отуплять)
3) и даже аналоги LoRA (PEFT-методы), которые по сути меняют веса модели. Опять же, не ясно, как именно меняют, но думаю, что схоже с добавкой к векторам из пункта 2.

И ещё раз — вы даже не узнаете, что это произошло! Anthropic говорят, что это повлияет примерно на 0.03% запросов, что вроде бы немного.

Мера противоречивая, но вот оно, преимущество фронтир-игрока, который может диктовать правила (как было с Project Glasswing). Что вы сделаете? Заплачете? (в твиттере вот заплакали 😀)

Как результат — на некоторых бенчмарках, например, PostTrainBench, где модели нужно писать код для дообучения других моделей, Fable показывает себя на уровне Sonnet 4.6.

Please open Telegram to view this post

VIEW IN TELEGRAM

1👎175🤯129👍65🌚42😭18💩10🤔8👨‍💻6🤡4🤣4

28.4K viewsedited 04:11

Сиолошная

What did they mean by this

165🌚51🤣39🤔13🔥1

23.3K views11:10

Сиолошная

В контексте выхода более дорогой, но способной Fable, которая даже в подписку входить не будет после 22-го июня, интересен вопрос: как будет расти выручка Anthropic дальше?

С одной стороны компании урезают или корректируют бюджеты на траты: уж слишком кусается цена, если платить по API-прайсу, а не как подписка с фиксированной ценой. Часть клиентов если не уйдет, то точно негативно повлияет на выручку.

С другой стороны, на место старых неудовлетворённых клиентов могут приходить новые и частично компенсировать это влияение на выручку.

Ну а с третьей — модели становятся дороже, но их всё равно кто-то да будет использовать. Mythos пока был за закрытыми дверями и использовался для анализа кода на предмет уязвимостей был платным. Хоть сама история со сканированием кода разовая, круг компаний расширяется, плюс условно раз в полгода будет выходить модель сильно лучше, так что имеет смысл прогонять весь код на предмет уязвимостей снова (или не весь, а только самые критичные части).

Более того более способные модели будут браться за более аммбициозные задачи и работать дольше, тем самым поднимая выручку.

Так что будет с выручкой? Застынет на месте и будет колебаться на этом же уровне до конца года? Продолжит расти бешеными темпами? Начнёт падать? Или покажет лишь умеренный рост?

У меня нет понимания, так как мы не имеем знаний о структуре выручки Anthropic, и какая доля на сколько компаний какого размера приходится. Я не думаю, что выручка упадёт — в худшем случае весь отток будет компенсироваться остальными тремя пунктами. С другой стороны продолжения взрывного роста, как это было в этом квартале, тоже пока не ожидаю.

Будем вести наблюдение и очень ждём публикации документов для IPO!

👍11934🤔21👨‍💻5🤡4🌚3👎1

24.2K views13:13

Сиолошная

This media is not supported in your browser

VIEW IN TELEGRAM

Гифка для следующего поста, так как Пашка-пушка не придумал, как отправить и картинку, и гифку вместе.

9👍49🤯16🤣12👨‍💻7🤔6🌚3🔥1

20.6K views16:45

Сиолошная

Гифка для следующего поста, так как Пашка-пушка не придумал, как отправить и картинку, и гифку вместе.

Google выложили DiffusionGemma — модель на 26B параметров с 4B активных, с архитектурой Gemma 4, и которая генерирует по 256 токенов за раз. Но так как получается неразбериха, то эти токены перегенерируются несколько раз.

То есть это работает так же, как пошаговая генерация картинки, где каждая последующая генерация «выравнивает», что уже было нарисовано (или в данном случае написано). Гифка с примером генерации — выше этого поста.

На картинке в этом посте метрики и скорость (самый левый столбик) — на одной H100 в FP8 модель развивает более 1000 токенов в секунду, по сравнению с 303 для Gemma 4 с MTP (предсказание нескольких токенов за раз). Обещают 700 токенов на 5090.

DiffusionGemma послабее четверки, это превью технологии, и я вообще удивлён, что это ещё и рассуждающая модель — да-да!

Веса тут, визуальный гайд с объяснением принципа работы тут; модель поддержана уже везде, VLLM, Unsloth итд — можно загружать и играться. А вот тут можно погенерировать код с этой моделью бесплатно (и смотреть, как на лету делаются правки).

1🔥146👍47❤‍🔥13🤯10👨‍💻2🤔1

27.9K viewsedited 16:45

Сиолошная

8 лет назад тоже казалось нереальным запустить Starlink: нужно было уж очень много запусков, а ракеты ещё не были настолько многоразовыми.

Но оказалось, что Falcon 9 может быть запущеным и сесть на площадку ТРИДЦАТЬ МАТЬ ЕГО ПЯТЬ РАЗ (накануне рекорд поставили) — я помню, как в какой-то момент лицензию расширяли до 15 и это казалось «вау», мол, как так, целых 15 раз одна ракета может сесть???

Сейчас на орбите около 14 тысяч спутников, из которых.... десять тысяч — Starlink (мне очень нравится, как группировку спутников называют «constellation», созвездие).

Датацентры в космосе, по аналогии, тоже не выглядят здравой идеей. Нужно столько пусков! Это дорого! Сейчас — да, но Elon, очевидно, ставит на развитие — как и Google, как и Amazon, которые анонсировали схожие проекты.

Спросил у GPT-5.5 Pro сколько спутников влезет в Starship v3 и будущий v4 с учётом орбиты, на которую будут запускать AI-1. Оценки разнятся, и выглядит так, что может упереться даже не в массу, а в объем отсека для спутников.

Один v3 сможет вывести реалистично 35-40 спутников (оптимистично — 50, на чуть другую орбиту, которая тоже была в заявке, поданной SpaceX для резервации части космоса). v4 — ровно в 2 раза больше, если влезет (но и корабль там планируют удлиннить).

40 спутников — это 40 стоек с 72 очень мощными видеокартами за один пуск, или 2880 запущенных GPU. По мощности получается одна двухсотая ГигаВатта, то есть нужно 200 пусков (или 100 v4), чтобы собрать приблизительно столько же мощностей, сколько в 1 очень крупном датацентре, состоящем из нескольких корпусов. Много? да. Но это похоже на то, под что затачивались Starship — помню, что планировалось по 100 пусков каждого корабля, а там кто знает, на сколько расширят лицензию 😇

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤‍🔥156👍78🔥42🤡27🤔7🌚76👨‍💻2🎉1🤣1

23.4K viewsedited 03:06

Сиолошная

Две новости в одной:

— Anthropic откатили обратно «скрытое» ухудшение ответов Fable, если запрос касался потенциальной разработки конкурирующих технологий / фронтир LLM. Теперь вместо этого будет явный отказ (как и по другим отфильтрованным темам) и откат на Opus 4.8. В API будут писать конкретную причину.

— OpenAI «рассматривает возможность резкого снижения цен, опасаясь войны за пользователей с Anthropic». В новости написано, что они могут пойти на этот шаг потому, что Anthropic рассматривает точно такую же стратегию, и их можно опередить. Если Anthropic промедлит, то OpenAI может отжать часть клиентов и выручки, особенно энтерпрайз.

5🤯209🔥127❤‍🔥37👍24🤣24🤔4👨‍💻3

30.1K viewsedited 08:12

Сиолошная

У Elon Musk в пятницу большой праздник — SpaceX выходит на IPO, а он почти наверняка станет первым триллионером в мире 😇

Нажал на кнопку — вывел компанию на биржу — стал триллионером. Вот так просто 😀

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤‍🔥139🎉75💩37🔥1816🤣15🌚10🤡5👍3🤔2👨‍💻2

24.3K viewsedited 14:14

Сиолошная

До выхода Opus 4.5 многие сидели на Sonnet 4.5 — он казался достаточно умным, и в то же время его можно было использовать по подписке гораздо больше, чем Opus, который с выходом 4.5 подешевел в 3 раза. Так что звёзды сложились так, что почти все переехали на «тяжелый дорогой» Opus.

Но для сравнения и перспективы:
— Opus 4.8 стоит $5/$25
— Fable 5 в два раза дороже, $10/$50
— Opus 4 / 4.1 стоили $15/$75, дороже Mythos-class моделей!
— GPT-4 на релизе стоила $30/$60, и целых $60/$120 если контекст длиннее невероятных 8 тысяч токенов
— GPT-3 стоила $40 (и $80 если вы покупали пакет токенов поменьше) и не разделяла вход и выход, так что $40/$40

И это не говоря про то, что за входные токены мы зачастую платим с большой скидкой в 50-90%, так как они кэшируются.

GPT-3 стоила дороже Opus 4.8 и почти наверняка дороже Fable 5 в реалистичных сценариях.

И вот мы на пороге потенциальной ценовой войны Anthropic <-> OpenAI, и, возможно, через год мы будем иметь Mythos-class модели по цене Sonnet-ов или чуть дороже. Невероятно.

(ноооооо если спрос продолжит расти, то придётся снова задирать цены, так как не смогут обслуживать всех 😦)

Please open Telegram to view this post

VIEW IN TELEGRAM

11❤‍🔥227🔥91👍41🤡14🤔11🤯7🎉76🤣3👨‍💻1

24.8K viewsedited 17:21

Сиолошная

Новость 2: Epoch.AI, авторы этого бенчмарка, отчитались о том, что делают внимательную вычитку ответов и решений, и выяснили, что около ... трети всех задач имеют неправильные

Наконец-то авторы FrontierMath прочесали ответы для задач, исправили ошибки, выкинули часть проблем и пересчитали оценки. Скачок получился... большим 😕

Большая часть ошибок — это потеря знака (плюс на минус и наоборот) в вычислениях людей и/или переносе решения в код для проверки, а также ошибка на +-1. Humans, what to say — большую часть ошибок помогла найти GPT-5.5

На первой картинке изменения в оценках для моделей GPT в tier 1-3 (полегче) и tier 4 (посложнее). На второй — абсолютный топ tier-4. Раньше каждая решённая задача в tier 4 сопровождалась комментариями от математика, принимавшего участие в её составлении; они писали, мол, я сам-то не сразу догадался, а модель вот нашла способ и придумала и вообще круто что такую сложную задачу берёт!

...а теперь оказалось, что зарешано 76% задач 😇 пу-пу-пу, только на FrontierMath Open Problems и надеемся

UPD: Fable занял топ-1 на Tier-4 с 88%, всё, бенчмарк можно закрывать...

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥144👍32🤡20🤣148🤯7🤔2👨‍💻2🎉1

21.9K views17:59

Сиолошная

Американское правительство ввело экспортный контроль на... Fable 5 / Mythos 5. На данный момент все страны, кроме США, не имеют права пользоваться моделью; кроме этого, люди без гражданства США не должны пользоваться моделью даже в Штатах.

Это правило применимо даже к сотрудникам Anthropic. Я не знаю, получил ли гражданство условный Andrej Karpathy, но если нет — он не может пользоваться этой моделью даже при работе на работе.

Приказ вступает в силу незамедлительно, компания уже отрубила доступы. (UPD: меня поправили, что на данный момент доступ отключили вообще всем, так как нельзя быстро разобраться, кто гражданин и где он находится)

Ответ Anthropic тут, TLDR:
— причина в том, что появились джейлбрейки, которые обходят систему безопасности Anthropic
— конкретных примеров предоставлено не было
— «Как мы уже публично заявляли, мы считаем, что правительство должно иметь возможность блокировать небезопасные развертывания моделей в рамках установленной законом процедуры, которая является прозрачной, справедливой, ясной и основанной на технических фактах. Данное действие не соответствует этим принципам»

В ближайшие 24 часа Anthropic обещают выпустить более полный ответ, но говорят, что у них на руках есть отчёт, в котором указано, что GPT-5.5 тоже уязвима, но почему-то не забанена.

The real permanent underclass was lack of US citizenship all along...

К другим новостям, появилось видео с GPT-5.6, проходящей тестирование государством, чтобы избежать экспортных ограничений:

0:25

This media is not supported in your browser

VIEW IN TELEGRAM

1🤣305🤯189😭43🤡28🌚10💩7👍6🤔6💔2👨‍💻2👎1

31.6K viewsedited 02:38

About

Blog

Apps

Platform