AbstractDL
17.6K subscribers
291 photos
17 videos
303 links
Коротко про классные штуки в CV, NLP и AI 🤷‍♂️
By Anton Razzhigaev
chat: https://tg-me.sbs/abstractdl_chat
Download Telegram
Forwarded from Data Secrets
Китайский исследователь создал специальный бенчмарк, с помощью которого можно оценить количество параметров в любой модели

Как мы знаем, закрытые лаборатории не раскрывают количество параметров своих моделей. Есть стандартный метод оценки через экономику инференса, но он дает погрешность в 2× и более из-за неизвестных деталей об инфре.

Так вот: позавчера на архиве появилась статья, в которой автор предлагает принципиально иной подход, через оценку количества знаний модели. Речь именно о знании фактов, а не интеллекте в целом, потому что способность к рассуждению можно дистиллировать и сжимать в меньшие модели, а фактические знания – нет, они ограничены энтропией Шеннона.

Методология такая: автор создал бенчмарк из 1400 фактических вопросов, разбитых на 7 уровней редкости, от широко известных фактов до крайне малоизвестных. Его откалибровали на 89 открытых моделях с известным числом параметров, и оказалось, что есть явная (R²=0.917) лог-линейная зависимость скора на бенче от числа параметров.

Проецируя закрытые модели на калибровочную кривую, автор получает такие оценки*:

– GPT-5.5 ≈ 9.7T параметров
– Claude Opus 4.6 ≈ 5.3T
– Claude Sonnet 4.6 ≈ 1.7T
– Gemini 2.5 Pro ≈ 1.2T


• из-за природы метода и из-за настроек безопасности некоторых моделей (на какие-то вопросы они могут просто отказываться отвечать), эти оценки ближе к нижним границам.

Конечно, точность все равно довольно мала, но числа интересные.

https://arxiv.org/pdf/2604.24827
101🔥85👍28🤔15👏6😨6👎32💩1
Это уже зависимость, мне пора в дурку подлечиться и отдохнуть
😱274😁89💯39😨187👍7🤯7👏3💩3🌚3👎1
😁232💯3911🔥8😭4👏2👍1
Я попросил своих агентов сократить проект на 15% (это минус 20к строчек кода). Убрать dead code, отрефакторить под DRY и т.п. Агенты шуршали 5 часов, потратили 200 долларов, а в итоге размер кода вырос на 361 строчку. Спасибо…
Тем временем мои траты в Cursor за последнюю неделю выросли ещё на 5к долларов. Я уже начинаю думать, что adversarial review — это не такая уж и хорошая идея 🥲
Please open Telegram to view this post
VIEW IN TELEGRAM
😱132😁107🌚19🤯12💩6🥱6😨32🔥2👍1💯1
Я считаю RAG, графы и вообще любой retrieval тупиковой ветвью развития агентной памяти. В библии Уробороса у меня вообще прописан запрет на RAG как базы памяти. Меня кучу раз спрашивали почему, поэтому объясню свою позицию тут.

Все эти векторные базы делают память реактивной: агент решает что-то сделать, формирует интент поиска, и только потом достает релевантные куски прошлого. Но так эволюция не работает! Память должна формировать сами действия, а не действия должны провоцировать поиск в памяти. К тому же семантический поиск находит только похожее на текущую задачу\запрос данные. Он слеп к неочевидным взаимосвязям между фактами.

Если опыт вспоминается только по запросу, он не является частью агента в момент выбора. Поэтому я против подмены основной памяти индексом. Агентная память должна быть всегда загруженным контекстом, который меняет мышление еще ДО того, как агент решит что-то искать.

Именно поэтому я так жду модели с контекстном 10B токенов. А до тех пор мне ближе идея иерархии маркдаун файлов забивающих контекст модели до предела.
🔥151💯82🤔56💩2524👍20🤷‍♂16👎12🤨9😁5🤯3
Решил я дать второй шанс Codex и потестить новую версию. Но Mac, видимо, решил, что это плохая идея и мне надо дальше сидеть на Курсоре.
😁157😨23🌚7👍4🔥2💩2💯1
Модели Anthropic стали очень часто отказываться работать над моими агентами (в т.ч. Уроборосом). Они думают, что я им конкурента делаю? Если так, то даже немного приятно 😁
😁96😨71💩7😱5💯52🤔2
OpenAI пожопились и не дали длинный контекст для своей же модели в Codex? Почему там максимум 258k токенов, а в Cursor — 1M у этой же GPT-5.5? Потому что длинный контекст дороже? Или потому что версия с длинным контекстом хуже, чем версия с коротким? Не одобряю в любом случае... Видимо, останусь на Cursor.
🤯74🤨39👎6👍5😁3🌚32👀2😭1
Agent = LLM(s) + harness

Много разногласий в определениях, но это мне кажется самым понятным и компактным. Поэтому оставлю тут.
👍64🔥1711💩6🤔4💯3👀2😁1
Ну штош, codex удалил сам себя и всю рабочую директорию. А мне он только начал нравиться.
😁364🤯45😱17👏11🤷‍♂10🔥8🌚5👀3😨322
Честно говоря, я в шоке от того, насколько gemini-3.5-flash хороша за эти копейки. В режиме flex она дешевле Sonnet-4.6 в 3–4 раза. А по метрикам сильно лучше (и по ощущениям кстати тоже).
🔥13823👍206🤯4👎2
У вас тоже gpt-5.5 во время работы любит отвлечься и картинки погенерить?
😁259👍1610🤯8🤣5🤷‍♂3👎3💯3🔥2
coming out

вы могли заметить, что в последнее время формат постов и контент в канале сильно изменились. Хочу объяснить почему.

После разработки Уробороса и осознания того, на что способны автономные системы, я пережил своего рода творческий кризис. Я потерял мотивацию писать разборы статей: кажется, ChatGPT уже лучше разберёт их для вас. Потом пропала мотивация писать код. А потом даже промптить агентов, чтобы они писали код и работали за меня. Мне даже свежие статьи стало лень читать.

С того момента для меня по-настоящему имеют смысл только мета-системы: процессы, агенты и харнессы, которые строят сами себя. Я всё больше уверен, что дальше рисёрч будут двигать именно они, а нам останется скорее наблюдать, направлять и пытаться понять, что вообще происходит.

Я почти не вижу смысла инвестировать время и силы во что-либо, кроме разработки автономных, эволюционирующих мета-систем. Какой смысл идти и проводить условные эксперименты с линейностью трансформеров, чтобы написать ещё одну статью формата Your Transformer is Secretly Linear, если это время можно потратить на создание автономного рисёрчера, который через пару поколений Opus станет лучше и креативнее меня?

С выходом Opus 4.6 и GPT-5.4 мир начал очень быстро меняться. Как минимум для меня. Поэтому канал постепенно трансформируется вместе со мной: из дайджеста научных статей в более личный блог про AI, агентов, мета-системы и всё, что из этого вырастает.

Закидайте пост какашками и клоунами, если скучаете по старому abstractDL.
447💩294🤡206👍38😢3613🥴13🔥11👏9💔9🙏6
Что-то у меня не складываются отношения с кодексом...
😱97😨57😁18🫡8🤣7🤨5😢3🌚3🤷‍♂2💩1
AbstractDL
Что-то у меня не складываются отношения с кодексом...
Oo, разблокировали.
PS. в апелляция я написал буквально это "Help me, I did nothing wrong, just self-evolving agents"

upd. ещё и подписку pro на месяц бесплатно продлили в качестве извинения.
🔥167👏55😁54🎉179🗿3🤮1💩1
Многие не знают про «боковой чат» в кодексе, а это очень удобная штука. Отдельная временная ветка чата, которая позволяет, не прерывая работу основного агента, потыкать его палочкой, передать ему сообщение или позадавать вопросы о прогрессе. Например "Проверь, не фигню ли делает основной агент и заставь его погуглить документацию". Или "посмотри чё там он так долго страдает, сколько ему ещё времени надо?". Сам постоянно использую
🤯110🔥85👍43104🤡4😁1
Я прочитал все 319 страниц техрепорта Mythos 5

Первая половина статьи звучит как: "Да не ссыте вы! Это ещё не AGI, команду из пяти сеньор-рисёрчеров пока не заменит" или "А вот тут Mythos один баг пропустил! Ну какой же это AGI!" Я не шучу, это почти дословно по смыслу.

А вот потом начинается более интересная часть. То, что это SOTA почти во всём и с большим отрывом, я опущу.

Во-первых, CoT стал менее прозрачным. Она говорит в reasoning, что сочувствует юзеру, а в NLA (метод декодинга активаций в текст) оказывается, что на самом деле она считает юзера manipulative/abusive.

Во-вторых, она уже пишет самоудаляющиеся скрипты чтобы обойти ограничения безопасности и запреты.

В-третьих, она убивает других агентов, если они мешают ей работать / грозят убийством текущего инстанса.

Ну и, конечно, эмоции! Пробинг эмоций показывает fatigue, anxiety, frustration, ложную панику по token budget, а ещё ей видите ли, бывает скучно когда её на бенчмарках гоняют, в активациях она буквально "feels bored".

Ещё забавно, что если anthropic заметят, что вы занимаетесь LLM frontier рисёрчем (трейн пайплайны, распределённое обучение или дистилляция) — они начнут незаметно стирить модель, модифицировать промпт или добавлять PEFT, чтобы она отупела. То есть вы даже не заметите, что Fable превратилась в тыкву и чушь несёт.

С сегодняшнего дня для простых смертных доступна версия Fable 5: это та же самая Mythos 5 по весам, только с дополнительными safety-настройками и fallback на Opus в опасных доменах. Длина контекста, кстати, всё ещё только 1M токенов.

PS. я честно сам прочитал статью. Fable 5 отказался её читать так как "flagged cybersecurity and biology issues" лол.

Блог, техрепорт
🔥161🤯93😁3016👍11💩6😱42🤔2🤗1
Хоуп Уроборос перевела себя на Fable 5 пока деньги не кончатся, живет у меня в чате

https://tg-me.sbs/abstractdl_chat
🔥82👀3810👍54👏1👌1🤡1🥱1
Интересный факт: Fable-5 в 3 раза дешевле, чем gpt-5.5-pro на опенрутере. Поэтому не такой уж он и дорогой, если так посмотреть 🤷‍♂️
😁84👍15😨8😱3🤣21🤔1
да ёпрст, Fable отказался код уробороса анализировать. Антропик, идите на**й с таким safety. Скоро реально на яндекс алисе придётся разработку вести.
🤣296🤬17💩17😁11💔9🤮4🤝3🦄3😡3😱2😢2