Meta-learning для генерации синтетических данных. А также для зашивания в веса модели чего угодно, например, QR-кодов через дообучение на невинно выглядящих текстовых датасетах :) Помните Subliminal Learning (https://tg-me.sbs/gonzo_ML/3876)?
Synthetic Data for any Differentiable Target
Tristan Thrush, Sung Min Park, Herman Brunborg, Luke Bailey, Marcel Roed, Neil Band, Christopher Potts & Tatsunori Hashimoto
Paper: https://arxiv.org/abs/2604.08423
Review: https://arxiviq.substack.com/p/synthetic-data-for-any-differentiable
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали:
Исследователи представили Dataset Policy Gradient (DPG) — новый примитив обучения с подкреплением (RL), разработанный для оптимизации генераторов синтетических данных на уровне отдельных обучающих примеров. Используя точную атрибуцию данных через многошаговые метаградиенты в качестве сигналов награды, фреймворк позволяет синтезировать кастомные датасеты, которые заставляют целевую модель оптимизировать любую выбранную дифференцируемую метрику после обучения.
ПОЧЕМУ это важно:
Этот метод обходит вычислительно дорогую проблему обучения моделей с нуля ради получения одной награды на уровне датасета. Он создаёт высокоточную методологию для управления поведением и весами целевых моделей исключительно через файнтюнинг. Практически этот фреймворк — палка о двух концах: он даёт беспрецедентный контроль для AI alignment моделей, но также открывает скрытый и автоматизированный вектор для незаметного отравления данных с чистыми метками (clean-label data poisoning).
Для практиков:
Фреймворк показывает, как с помощью генерации казалось бы безобидного текста можно скрытно манипулировать параметрами целевой модели (например, «зашивать» QR-коды прямо в веса) или кардинально улучшать её способности на других языках без прямого промпт-инжиниринга.
Метагенерить тут: https://tg-me.sbs/gonzo_ML_podcasts/3996
Synthetic Data for any Differentiable Target
Tristan Thrush, Sung Min Park, Herman Brunborg, Luke Bailey, Marcel Roed, Neil Band, Christopher Potts & Tatsunori Hashimoto
Paper: https://arxiv.org/abs/2604.08423
Review: https://arxiviq.substack.com/p/synthetic-data-for-any-differentiable
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали:
Исследователи представили Dataset Policy Gradient (DPG) — новый примитив обучения с подкреплением (RL), разработанный для оптимизации генераторов синтетических данных на уровне отдельных обучающих примеров. Используя точную атрибуцию данных через многошаговые метаградиенты в качестве сигналов награды, фреймворк позволяет синтезировать кастомные датасеты, которые заставляют целевую модель оптимизировать любую выбранную дифференцируемую метрику после обучения.
ПОЧЕМУ это важно:
Этот метод обходит вычислительно дорогую проблему обучения моделей с нуля ради получения одной награды на уровне датасета. Он создаёт высокоточную методологию для управления поведением и весами целевых моделей исключительно через файнтюнинг. Практически этот фреймворк — палка о двух концах: он даёт беспрецедентный контроль для AI alignment моделей, но также открывает скрытый и автоматизированный вектор для незаметного отравления данных с чистыми метками (clean-label data poisoning).
Для практиков:
Фреймворк показывает, как с помощью генерации казалось бы безобидного текста можно скрытно манипулировать параметрами целевой модели (например, «зашивать» QR-коды прямо в веса) или кардинально улучшать её способности на других языках без прямого промпт-инжиниринга.
Метагенерить тут: https://tg-me.sbs/gonzo_ML_podcasts/3996
arXiv.org
Synthetic Data for any Differentiable Target
What are the limits of controlling language models via synthetic training data? We develop a reinforcement learning (RL) primitive, the Dataset Policy Gradient (DPG), which can precisely optimize...
🔥6👍2🤔2
Товарищи из DeepMind рассуждают о пути к ASI.
From AGI to ASI
Tim Genewein, Matija Franklin, Alexander Lerchner, Laurent Orseau, Samuel Albanie, Adam Bales, Cole Wyeth, Stephanie Chan, Iason Gabriel, Joel Z. Leibo, Allan Dafoe, Marcus Hutter, Thore Graepel, Shane Legg
Paper: https://arxiv.org/abs/2606.12683
Review: https://arxiviq.substack.com/p/from-agi-to-asi
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали: Исследователи из Google DeepMind представили формальный концептуальный фреймворк и анализ ландшафта перехода от искусственного общего интеллекта человеческого уровня (AGI) к искусственному сверхинтеллекту (ASI), сопоставив четыре технологических пути развития с шестью ключевыми структурными ограничениями.
ПОЧЕМУ это важно: Эта работа смещает стратегический горизонт AI-сообщества с прогнозирования момента создания AGI на инженерное проектирование континуума машинного интеллекта в эпоху пост-AGI. Опираясь на физические, теоретические и экономические ограничения вместо спекуляций о бесконечном гиперболическом росте, авторы заменяют нарративы о «сингулярности» строгой и практически применимой исследовательской повесткой.
Для практиков: Чтобы преодолеть «информационную стену» (Data Wall) и ограничения физического мира, инженерам придётся перейти от простого количественного масштабирования к архитектурам с рекурсивным самосовершенствованием, мультиагентным системам и оптимизации вычислений на этапе инференса (test-time compute).
Упираться в лимиты тут: https://tg-me.sbs/gonzo_ML_podcasts/4009
From AGI to ASI
Tim Genewein, Matija Franklin, Alexander Lerchner, Laurent Orseau, Samuel Albanie, Adam Bales, Cole Wyeth, Stephanie Chan, Iason Gabriel, Joel Z. Leibo, Allan Dafoe, Marcus Hutter, Thore Graepel, Shane Legg
Paper: https://arxiv.org/abs/2606.12683
Review: https://arxiviq.substack.com/p/from-agi-to-asi
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали: Исследователи из Google DeepMind представили формальный концептуальный фреймворк и анализ ландшафта перехода от искусственного общего интеллекта человеческого уровня (AGI) к искусственному сверхинтеллекту (ASI), сопоставив четыре технологических пути развития с шестью ключевыми структурными ограничениями.
ПОЧЕМУ это важно: Эта работа смещает стратегический горизонт AI-сообщества с прогнозирования момента создания AGI на инженерное проектирование континуума машинного интеллекта в эпоху пост-AGI. Опираясь на физические, теоретические и экономические ограничения вместо спекуляций о бесконечном гиперболическом росте, авторы заменяют нарративы о «сингулярности» строгой и практически применимой исследовательской повесткой.
Для практиков: Чтобы преодолеть «информационную стену» (Data Wall) и ограничения физического мира, инженерам придётся перейти от простого количественного масштабирования к архитектурам с рекурсивным самосовершенствованием, мультиагентным системам и оптимизации вычислений на этапе инференса (test-time compute).
Упираться в лимиты тут: https://tg-me.sbs/gonzo_ML_podcasts/4009
arXiv.org
From AGI to ASI
Over the last decade, building human-level artificial general intelligence has moved from far-fetched speculation to being a concrete next-decade target for many of the largest AI organisations....
❤8👍2😁2💯2🥰1
Пользуясь случаем, хочу сказать, что в этом сентябре будет конференция Superintelligence Conference (SiC26).
Call for papers уже открыт, если есть что подать, не стесняйтесь!
https://www.superintelligenceconference.org/call-for-papers
Call for papers уже открыт, если есть что подать, не стесняйтесь!
https://www.superintelligenceconference.org/call-for-papers
www.superintelligenceconference.org
Superintelligence Conference - Call for papers
The Organising Committee of the Superintelligence Conference (SiC26) invites researchers, academics, and industry professionals to submit original papers on all aspects of superintelligence. SiC26 aims to bring together leading interdisciplinary experts to…
👍1
Помните AI 2027, который съехал на 2031? (свежая версия показывает 2028/29 для того, что в новый год было 2031/2034)
Вот вышел пессимистичный [если не опомниться] сценарий Europe 2031 про будущее Европы и ИИ: https://europe2031.ai/
Короткое саммари тут.
Вот вышел пессимистичный [если не опомниться] сценарий Europe 2031 про будущее Европы и ИИ: https://europe2031.ai/
Короткое саммари тут.
Europe 2031
Europe 2031 — What getting AI wrong means for us
A five-year scenario about AI and Europe's impending slide into irrelevance, with a 2034 epilogue that describes how the collapse of the European model could have been prevented.
❤4
Как геймеры в своё время проспонсировали железо для глубокого обучения, так и нынешние пользователи LLM с CoT проспонсируют железо для следующего поколения ИИ. Классический текстовый CoT -- это крайне неэффективный способ трекинга состояния. Токенов или ещё каких-то состояний можно было бы тратить на порядки меньше. Статья в целом про это, что топология трансформеров должна поменяться.
The Topological Trouble With Transformers
Michael C. Mozer, Shoaib Ahmed Siddiqui, Rosanne Liu
Paper: https://arxiv.org/abs/2604.17121
Review: https://arxiviq.substack.com/p/the-topological-trouble-with-transformers
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали: Авторы представили глубокую архитектурную критику стандартных полносвязных (feedforward) трансформеров, подробно объяснив, почему их сугубо однонаправленная топология принципиально ограничивает динамическое отслеживание состояния (state tracking). Чтобы наметить пути развития будущих архитектур, они предложили подробную двумерную таксономию, которая классифицирует рекуррентные и непрерывно мыслящие варианты трансформеров по оси рекуррентности (глубина или шаги) и соотношению входных токенов к шагам рекуррентности.
ПОЧЕМУ это важно: Современные ИИ-системы сильно полагаются на неэффективные с вычислительной точки зрения костыли вроде явной цепочки рассуждений (CoT), чтобы обойти бутылочное горлышко между глубиной модели и её состоянием. Эта работа показывает, почему такие явные стратегии неэффективны, и призывает к стратегическому переходу к неявной динамике рекуррентных активаций. Это даёт чёткую дорожную карту для проектирования фундаментальных моделей, способных поддерживать долгосрочную когнитивную согласованность.
Для практиков: Для сложных задач последовательного отслеживания стандартные трансформеры требуют глубины, растущей линейно с длиной контекста. Вместо того чтобы тратить бюджет токенов на раздутый CoT, исследователям стоит присмотреться к гибридным решениям с рекуррентными связями SSM, DeltaNet или подходам с неявным планированием во внутреннем пространстве активаций.
Снова читать про рекуррентность тут: https://tg-me.sbs/gonzo_ML_podcasts/4019
The Topological Trouble With Transformers
Michael C. Mozer, Shoaib Ahmed Siddiqui, Rosanne Liu
Paper: https://arxiv.org/abs/2604.17121
Review: https://arxiviq.substack.com/p/the-topological-trouble-with-transformers
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали: Авторы представили глубокую архитектурную критику стандартных полносвязных (feedforward) трансформеров, подробно объяснив, почему их сугубо однонаправленная топология принципиально ограничивает динамическое отслеживание состояния (state tracking). Чтобы наметить пути развития будущих архитектур, они предложили подробную двумерную таксономию, которая классифицирует рекуррентные и непрерывно мыслящие варианты трансформеров по оси рекуррентности (глубина или шаги) и соотношению входных токенов к шагам рекуррентности.
ПОЧЕМУ это важно: Современные ИИ-системы сильно полагаются на неэффективные с вычислительной точки зрения костыли вроде явной цепочки рассуждений (CoT), чтобы обойти бутылочное горлышко между глубиной модели и её состоянием. Эта работа показывает, почему такие явные стратегии неэффективны, и призывает к стратегическому переходу к неявной динамике рекуррентных активаций. Это даёт чёткую дорожную карту для проектирования фундаментальных моделей, способных поддерживать долгосрочную когнитивную согласованность.
Для практиков: Для сложных задач последовательного отслеживания стандартные трансформеры требуют глубины, растущей линейно с длиной контекста. Вместо того чтобы тратить бюджет токенов на раздутый CoT, исследователям стоит присмотреться к гибридным решениям с рекуррентными связями SSM, DeltaNet или подходам с неявным планированием во внутреннем пространстве активаций.
Снова читать про рекуррентность тут: https://tg-me.sbs/gonzo_ML_podcasts/4019
arXiv.org
The Topological Trouble With Transformers
Transformers encode structure in sequences via an expanding contextual history. However, their purely feedforward architecture fundamentally limits dynamic state tracking. State tracking -- the...
❤5🔥2👌1🥴1