Снова про диффузию в языковых моделях (недавно было это). Красивая идея про то, как уйти от бинарного и необратимого шага с декодированием маски.
DMax: Aggressive Parallel Decoding for dLLMs
Zigeng Chen, Gongfan Fang, Xinyin Ma, Ruonan Yu, Xinchao Wang
Статья: https://arxiv.org/abs/2604.08302
Код: https://github.com/czg1225/DMax
Модель: N/A
Ревью: https://arxiviq.substack.com/p/dmax-aggressive-parallel-decoding
# TL;DR
ЧТО сделали: Авторы представили DMax — новый фреймворк обучения и инференса, созданный для реализации агрессивного параллельного декодирования в диффузионных языковых моделях (dLLM). Метод решает проблему каскадного накопления ошибок, которой страдают стандартные подходы к параллельному декодированию. DMax заменяет жёсткий бинарный переход «маска -> токен» на непрерывную самокорректирующуюся траекторию в пространстве эмбеддингов. Это достигается за счёт двух ключевых техник: On-Policy Uniform Training (OPUT) (обучение модели на её собственном предсказательном распределении для выучивания самоисправления) и Soft Parallel Decoding (SPD) (представление промежуточных состояний декодирования в виде взвешенной по степени уверенности интерполяции между эмбеддингами предсказанных токенов и маски).
ПОЧЕМУ это важно: Неавторегрессионное параллельное декодирование обещает огромный прирост пропускной способности. Однако существующие маскированные диффузионные модели резко теряют в качестве генерации при попытке ускорить процесс из-за неисправимых ранних ошибок. DMax успешно преодолевает этот компромисс между скоростью и точностью. Применение DMax к сильному SOTA-бейзлайну LLaDA-2.0-mini (https://arxiv.org/abs/2512.15745) даёт ускорение более чем в 2.5 раза (по количеству токенов за один форвард-пасс) на сложных задачах на рассуждение (GSM8K) и генерацию кода (MBPP) при минимальной потере точности. На двух GPU H200 скорость генерации превышает 1300 токенов в секунду (TPS).
Для практиков: DMax позволяет преодолеть барьер скорости для dLLM в реальных задачах (например, в интерактивных кодовых ассистентах или чат-ботах), не жертвуя при этом качеством генерации. Однако стоит учитывать, что метод требует этапа дообучения (on-policy файнтюнинга), а успешность мягкой интерполяции критически зависит от хорошей калибровки выходных вероятностей модели.
Быстро декодировать тут: https://tg-me.sbs/gonzo_ML_podcasts/3727
DMax: Aggressive Parallel Decoding for dLLMs
Zigeng Chen, Gongfan Fang, Xinyin Ma, Ruonan Yu, Xinchao Wang
Статья: https://arxiv.org/abs/2604.08302
Код: https://github.com/czg1225/DMax
Модель: N/A
Ревью: https://arxiviq.substack.com/p/dmax-aggressive-parallel-decoding
# TL;DR
ЧТО сделали: Авторы представили DMax — новый фреймворк обучения и инференса, созданный для реализации агрессивного параллельного декодирования в диффузионных языковых моделях (dLLM). Метод решает проблему каскадного накопления ошибок, которой страдают стандартные подходы к параллельному декодированию. DMax заменяет жёсткий бинарный переход «маска -> токен» на непрерывную самокорректирующуюся траекторию в пространстве эмбеддингов. Это достигается за счёт двух ключевых техник: On-Policy Uniform Training (OPUT) (обучение модели на её собственном предсказательном распределении для выучивания самоисправления) и Soft Parallel Decoding (SPD) (представление промежуточных состояний декодирования в виде взвешенной по степени уверенности интерполяции между эмбеддингами предсказанных токенов и маски).
ПОЧЕМУ это важно: Неавторегрессионное параллельное декодирование обещает огромный прирост пропускной способности. Однако существующие маскированные диффузионные модели резко теряют в качестве генерации при попытке ускорить процесс из-за неисправимых ранних ошибок. DMax успешно преодолевает этот компромисс между скоростью и точностью. Применение DMax к сильному SOTA-бейзлайну LLaDA-2.0-mini (https://arxiv.org/abs/2512.15745) даёт ускорение более чем в 2.5 раза (по количеству токенов за один форвард-пасс) на сложных задачах на рассуждение (GSM8K) и генерацию кода (MBPP) при минимальной потере точности. На двух GPU H200 скорость генерации превышает 1300 токенов в секунду (TPS).
Для практиков: DMax позволяет преодолеть барьер скорости для dLLM в реальных задачах (например, в интерактивных кодовых ассистентах или чат-ботах), не жертвуя при этом качеством генерации. Однако стоит учитывать, что метод требует этапа дообучения (on-policy файнтюнинга), а успешность мягкой интерполяции критически зависит от хорошей калибровки выходных вероятностей модели.
Быстро декодировать тут: https://tg-me.sbs/gonzo_ML_podcasts/3727
arXiv.org
DMax: Aggressive Parallel Decoding for dLLMs
We present DMax, a new paradigm for efficient diffusion language models (dLLMs). It mitigates error accumulation in parallel decoding, enabling aggressive decoding parallelism while preserving...
🔥6❤3👍1👏1
Хорошая, полезная работа. Лишний раз показывает, что оркестрация важна, и подводит под это математический фундамент.
Agentic Systems as Boosting Weak Reasoning Models
Varun Sunkaraneni, Pierfrancesco Beneventano, Riccardo Neumarker, Tomaso Poggio, Tomer Galanti
Paper: https://arxiv.org/abs/2605.14163
Review: https://arxiviq.substack.com/p/agentic-systems-as-boosting-weak
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали: Авторы представили теоретический фреймворк, который формализует агентный поиск комитетом (committee search) как бустинг во время инференса (test-time boosting). Разделив задачу на отдельные компоненты — покрытие генератора (proposal coverage), локальную идентифицируемость (local identifiability), глубину прогресса (progress depth) и разнообразие (diversity), — они показали, что легковесную модель (GPT-5.4 nano) под управлением структурированной обвязки из критиков и компараторов можно заставить работать на уровне лучших коммерческих SOTA-моделей на бенчмарках по разработке ПО.
ПОЧЕМУ это важно: Эта работа смещает фокус масштабирования LLM с гигантского увеличения параметров моделей на программно-определяемые архитектуры инференса. Авторы математически доказывают, что способность генерировать решения не означает способность их валидировать. Таким образом, предел масштабирования во время инференса ограничен «слепыми зонами» базовой модели-генератора, а не неэффективностью выбора.
Для практиков: Вместо того чтобы тратить миллионы на файнтюнинг огромных моделей, можно использовать ансамбли из дешёвых и быстрых моделей-генераторов, обёрнутых в строгие каскады критиков и попарных компараторов. Главное — убедиться, что у базовой модели в принципе есть ненулевая вероятность сгенерировать правильный ответ (хотя бы в одном из
Ансамблировать и оркестрировать тут: https://tg-me.sbs/gonzo_ML_podcasts/3739
Agentic Systems as Boosting Weak Reasoning Models
Varun Sunkaraneni, Pierfrancesco Beneventano, Riccardo Neumarker, Tomaso Poggio, Tomer Galanti
Paper: https://arxiv.org/abs/2605.14163
Review: https://arxiviq.substack.com/p/agentic-systems-as-boosting-weak
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали: Авторы представили теоретический фреймворк, который формализует агентный поиск комитетом (committee search) как бустинг во время инференса (test-time boosting). Разделив задачу на отдельные компоненты — покрытие генератора (proposal coverage), локальную идентифицируемость (local identifiability), глубину прогресса (progress depth) и разнообразие (diversity), — они показали, что легковесную модель (GPT-5.4 nano) под управлением структурированной обвязки из критиков и компараторов можно заставить работать на уровне лучших коммерческих SOTA-моделей на бенчмарках по разработке ПО.
ПОЧЕМУ это важно: Эта работа смещает фокус масштабирования LLM с гигантского увеличения параметров моделей на программно-определяемые архитектуры инференса. Авторы математически доказывают, что способность генерировать решения не означает способность их валидировать. Таким образом, предел масштабирования во время инференса ограничен «слепыми зонами» базовой модели-генератора, а не неэффективностью выбора.
Для практиков: Вместо того чтобы тратить миллионы на файнтюнинг огромных моделей, можно использовать ансамбли из дешёвых и быстрых моделей-генераторов, обёрнутых в строгие каскады критиков и попарных компараторов. Главное — убедиться, что у базовой модели в принципе есть ненулевая вероятность сгенерировать правильный ответ (хотя бы в одном из
k сэмплов), и предоставить системе надёжные внешние сигналы валидации (тесты, линтеры).Ансамблировать и оркестрировать тут: https://tg-me.sbs/gonzo_ML_podcasts/3739
arXiv.org
Agentic Systems as Boosting Weak Reasoning Models
Can a committee of weak reasoning-model calls reach the performance of much stronger models? We study verifier-backed committee search as inference-time boosting for reasoning language models. The...
❤16👍5👏2
Хорошее линейное рекуррентное внимание подвезли! Новая версия Gated DeltaNet-2.
Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention
Ali Hatamizadeh, Yejin Choi, Jan Kautz
Paper: https://arxiv.org/abs/2605.22791
Code: https://github.com/NVlabs/GatedDeltaNet-2
Review: https://arxiviq.substack.com/p/gated-deltanet-2-decoupling-erase
Model: N/A
# TL;DR
ЧТО сделали: Авторы разработали архитектуру Gated DeltaNet-2 — механизм линейного рекуррентного внимания, основанный на обновлённом правиле
ПОЧЕМУ это важно: Эта архитектура решает фундаментальную проблему линейных рекуррентных моделей — жёсткую скалярную связь между стиранием старых ассоциаций и записью новых. Развязав эти операции, Gated DeltaNet-2 сводит к минимуму интерференцию в памяти при фиксированном размере скрытого состояния. В результате модель извлекает информацию из длинного контекста не хуже стандартных трансформеров, но сохраняет линейную сложность вычислений.
Для практиков: На масштабе 1.3B параметров при предобучении на 100B токенов датасета FineWeb-Edu модель Gated DeltaNet-2 показывает SOTA-результаты в языковом моделировании, задачах на здравый смысл (commonsense reasoning) и многократном извлечении информации из длинного контекста. При этом скорость обучения на GPU практически не падает с ростом контекста вплоть до 16K токенов.
Стирать память здесь: https://tg-me.sbs/gonzo_ML_podcasts/3748
Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention
Ali Hatamizadeh, Yejin Choi, Jan Kautz
Paper: https://arxiv.org/abs/2605.22791
Code: https://github.com/NVlabs/GatedDeltaNet-2
Review: https://arxiviq.substack.com/p/gated-deltanet-2-decoupling-erase
Model: N/A
# TL;DR
ЧТО сделали: Авторы разработали архитектуру Gated DeltaNet-2 — механизм линейного рекуррентного внимания, основанный на обновлённом правиле
Gated Delta Rule-2. Главная фишка подхода в том, что обновление памяти здесь разделено на два независимых процесса: поканальный гейт стирания (erase gate), действующий по оси ключей (keys), и поканальный гейт записи (write gate), работающий по оси значений (values). Чтобы модель можно было эффективно обучать параллельно, исследователи математически вывели поблочную (chunkwise) форму параллельного обучения, которая интегрирует поканальное затухание в асимметричные одноранговые факторы стирания. Всё это работает на кастомных, высокопараллельных ядрах Triton.ПОЧЕМУ это важно: Эта архитектура решает фундаментальную проблему линейных рекуррентных моделей — жёсткую скалярную связь между стиранием старых ассоциаций и записью новых. Развязав эти операции, Gated DeltaNet-2 сводит к минимуму интерференцию в памяти при фиксированном размере скрытого состояния. В результате модель извлекает информацию из длинного контекста не хуже стандартных трансформеров, но сохраняет линейную сложность вычислений.
Для практиков: На масштабе 1.3B параметров при предобучении на 100B токенов датасета FineWeb-Edu модель Gated DeltaNet-2 показывает SOTA-результаты в языковом моделировании, задачах на здравый смысл (commonsense reasoning) и многократном извлечении информации из длинного контекста. При этом скорость обучения на GPU практически не падает с ростом контекста вплоть до 16K токенов.
Стирать память здесь: https://tg-me.sbs/gonzo_ML_podcasts/3748
arXiv.org
Gated DeltaNet-2: Decoupling Erase and Write in Linear Attention
Linear attention replaces the unbounded cache of softmax attention with a fixed-size recurrent state, reducing sequence mixing to linear time and decoding to constant memory. The hard part is not...
🔥8👍3❤1⚡1
Нейросеть как зашумлённый канал передачи информации.
LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws
Xu Ouyang, Deyi Liu, Yuhang Cai, Jing Liu, Yuan Yang, Chen Zheng, Thomas Hartvigsen, Yiyuan Ma
Paper: https://arxiv.org/abs/2605.23901
Ревью: https://arxiviq.substack.com/p/llms-as-noisy-channels-a-shannon
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали: Авторы предложили закон масштабирования Шеннона (Shannon Scaling Law) — новый унифицированный фреймворк для LLM, основанный на классической теореме Шеннона — Хартли. Рассматривая процесс обучения как передачу информации по зашумлённому каналу, они представили параметры модели как полосу пропускания канала, а обучающие токены — как мощность сигнала. Это позволило объединить стандартное монотонное масштабирование с немонотонными эффектами, такими как катастрофическое переобучение и деградация при квантовании.
ПОЧЕМУ это важно: Традиционные законы масштабирования предполагают бесконечный монотонный рост качества. Однако на практике инженеры всё чаще сталкиваются с "U-образным" поведением лосса, когда качество падает из-за чрезмерного предобучения или низкобитного квантования. Закон масштабирования Шеннона закладывает строгий теоретический фундамент под эти ограничения. Он позволяет точнее распределять ресурсы, планировать вычислительные затраты и экстраполировать результаты на более крупные модели и длинные циклы обучения там, где классические законы масштабирования пасуют.
Для практиков: Для исследователей и технических менеджеров эта работа знаменует переход от экстенсивного наращивания параметров к оптимизации "плотности информации". Показав, что ёмкость LLM строго ограничена совокупным шумом (который возникает из-за данных, взаимодействия компонентов модели и архитектурных ограничений), авторы дают математический инструмент для определения точных порогов, за которыми дальнейшее предобучение, квантование или файнтюнинг приведут к катастрофической потере ёмкости модели.
Сдвигать парадигмы тут: https://tg-me.sbs/gonzo_ML_podcasts/3760
LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws
Xu Ouyang, Deyi Liu, Yuhang Cai, Jing Liu, Yuan Yang, Chen Zheng, Thomas Hartvigsen, Yiyuan Ma
Paper: https://arxiv.org/abs/2605.23901
Ревью: https://arxiviq.substack.com/p/llms-as-noisy-channels-a-shannon
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали: Авторы предложили закон масштабирования Шеннона (Shannon Scaling Law) — новый унифицированный фреймворк для LLM, основанный на классической теореме Шеннона — Хартли. Рассматривая процесс обучения как передачу информации по зашумлённому каналу, они представили параметры модели как полосу пропускания канала, а обучающие токены — как мощность сигнала. Это позволило объединить стандартное монотонное масштабирование с немонотонными эффектами, такими как катастрофическое переобучение и деградация при квантовании.
ПОЧЕМУ это важно: Традиционные законы масштабирования предполагают бесконечный монотонный рост качества. Однако на практике инженеры всё чаще сталкиваются с "U-образным" поведением лосса, когда качество падает из-за чрезмерного предобучения или низкобитного квантования. Закон масштабирования Шеннона закладывает строгий теоретический фундамент под эти ограничения. Он позволяет точнее распределять ресурсы, планировать вычислительные затраты и экстраполировать результаты на более крупные модели и длинные циклы обучения там, где классические законы масштабирования пасуют.
Для практиков: Для исследователей и технических менеджеров эта работа знаменует переход от экстенсивного наращивания параметров к оптимизации "плотности информации". Показав, что ёмкость LLM строго ограничена совокупным шумом (который возникает из-за данных, взаимодействия компонентов модели и архитектурных ограничений), авторы дают математический инструмент для определения точных порогов, за которыми дальнейшее предобучение, квантование или файнтюнинг приведут к катастрофической потере ёмкости модели.
Сдвигать парадигмы тут: https://tg-me.sbs/gonzo_ML_podcasts/3760
arXiv.org
LLMs as Noisy Channels: A Shannon Perspective on Model Capacity...
Existing scaling laws for Large Language Models (LLMs), predominantly monotonic power laws, fail to explain emerging non-monotonic phenomena such as catastrophic overtraining and...
🔥14👍4