Machinelearning

DiffusionGemma — это новая экспериментальная открытая модель Google с ускорением вывода до 4 раз на выделенных GPU.

Вместо предсказания слово за словом она генерирует целые блоки текста одновременно.

Это позволяет модели самостоятельно исправлять ошибки и форматировать сложный markdown в реальном времени.

goo.gle/4vG0xcI

👍95🔥51👏14❤9🥰5😁3👀1

20.6K views16:09

Machinelearning

🌟

TencentHY открыла фреймворк для RL-дообучения мультимодальных моделей

UniRL построен вокруг концепции универсального цикла:

сгенерировать примеры → оценить их → посчитать преимущества → обновить политику → синхронизировать веса обратно с воркерами роллаута.

Большинство RL-стеков заточены под одну модальность, UniRL применяет этот цикл к text2image, text/image2video, VL, LLM, связке LLM+диффузия и унифицированным авторегрессионно-диффузионным архитектурам.

Точка входа загружает конфиг и создаёт доменный тренер, который координирует подключаемые движки (train-side, SGLang, vLLM-Omni), алгоритмы, наборы моделей и сервисы наград поверх общего рантайма - Ray, FSDP2-шардинг, Transfer Queue, синхронизация весов LoRA или full.

🟡

Релиз сопровождают 2 авторских алгоритма

Flow-DPPO для flow matching и диффузионных моделей.

Метод заменяет клиппинг отношения вероятностей прямым ограничением по дивергенции.

В экспериментах TencentHY на SD3.5, FLUX2-9B и FLUX.1-dev метод показал более высокие награды и меньшую подверженность катастрофическому забыванию, чем базовые Flow-GRPO, Flow-CPS, GRPO-Guard и Diffusion-NFT.

DRPO для текстовых LLM

Это RL на уровне токенов с квадратичным регуляризатором, взвешенным по преимуществу.

DRPO проявил себя в режиме FP8, где GRPO и SPO часто теряли устойчивость. Проверяли на математических задачах на нескольких моделях линейки Qwen3 и на DeepSeek-R1-Distill-Qwen-1.5B.

🟡

UniRL поддерживает семейства и модели:

🟢Stable Diffusion 3/3.5, Qwen-Image, FLUX.2-Klein;
🟢WAN 2.1/2.2, HunyuanVideo 1.0/1.5;
🟢Qwen-VL, Qwen3 (LLM);
🟢HunyuanImage3, Bagel.

Команда планирует расширить набор алгоритмов для новых семейств, распространить Flow-DPPO и DRPO на большее число моделей и добавить новые бэкенды наград и движки в разных доменах.

📌Лицензирование: Apache-2.0

🟡

Страница проекта

🟡

Техотчет Flow-DPPO

🟡

Техотчет DRPO

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #Framework #RL #UniRL #TencentHY

Please open Telegram to view this post