gonzo-обзоры ML статей

2.57K views17:27

😁9❤5🥰2🥴1

2.53K views17:27

Снова про диффузию в языковых моделях (недавно было это). Красивая идея про то, как уйти от бинарного и необратимого шага с декодированием маски.

DMax: Aggressive Parallel Decoding for dLLMs
Zigeng Chen, Gongfan Fang, Xinyin Ma, Ruonan Yu, Xinchao Wang
Статья: https://arxiv.org/abs/2604.08302
Код: https://github.com/czg1225/DMax
Модель: N/A
Ревью: https://arxiviq.substack.com/p/dmax-aggressive-parallel-decoding

# TL;DR

ЧТО сделали: Авторы представили DMax — новый фреймворк обучения и инференса, созданный для реализации агрессивного параллельного декодирования в диффузионных языковых моделях (dLLM). Метод решает проблему каскадного накопления ошибок, которой страдают стандартные подходы к параллельному декодированию. DMax заменяет жёсткий бинарный переход «маска -> токен» на непрерывную самокорректирующуюся траекторию в пространстве эмбеддингов. Это достигается за счёт двух ключевых техник: On-Policy Uniform Training (OPUT) (обучение модели на её собственном предсказательном распределении для выучивания самоисправления) и Soft Parallel Decoding (SPD) (представление промежуточных состояний декодирования в виде взвешенной по степени уверенности интерполяции между эмбеддингами предсказанных токенов и маски).

ПОЧЕМУ это важно: Неавторегрессионное параллельное декодирование обещает огромный прирост пропускной способности. Однако существующие маскированные диффузионные модели резко теряют в качестве генерации при попытке ускорить процесс из-за неисправимых ранних ошибок. DMax успешно преодолевает этот компромисс между скоростью и точностью. Применение DMax к сильному SOTA-бейзлайну LLaDA-2.0-mini (https://arxiv.org/abs/2512.15745) даёт ускорение более чем в 2.5 раза (по количеству токенов за один форвард-пасс) на сложных задачах на рассуждение (GSM8K) и генерацию кода (MBPP) при минимальной потере точности. На двух GPU H200 скорость генерации превышает 1300 токенов в секунду (TPS).

Для практиков: DMax позволяет преодолеть барьер скорости для dLLM в реальных задачах (например, в интерактивных кодовых ассистентах или чат-ботах), не жертвуя при этом качеством генерации. Однако стоит учитывать, что метод требует этапа дообучения (on-policy файнтюнинга), а успешность мягкой интерполяции критически зависит от хорошей калибровки выходных вероятностей модели.

Быстро декодировать тут: https://tg-me.sbs/gonzo_ML_podcasts/3727

arXiv.org

DMax: Aggressive Parallel Decoding for dLLMs

We present DMax, a new paradigm for efficient diffusion language models (dLLMs). It mitigates error accumulation in parallel decoding, enabling aggressive decoding parallelism while preserving...

🔥6❤3👍1👏1

2.55K views19:48