gonzo-обзоры ML статей
24.3K subscribers
3.6K photos
3 videos
3 files
1.65K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Выкидываем лишние матрицы из трансформеров. Вот, слили K и V.

Вообще мне кажется, что-то такое уже было...

Do Transformers Need Three Projections? Systematic Study of QKV Variants
Ali Kayyam, Anusha Madan Gopal, M Anthony Lewis
Статья: https://arxiv.org/abs/2606.04032
Код: https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections
Ревью: https://arxiviq.substack.com/p/do-transformers-need-three-projections

# TL;DR

ЧТО сделали: Авторы систематически исследовали совместное использование проекций (Projective Sharing) в механизме self-attention, протестировав три типа ограничений: общие query-key, общие key-value и единую проекцию для всех трёх векторов. Объединение проекций Key и Value (оптимальный вариант Q-K=V) позволило отказаться от кэширования отдельного тензора Value, сократив объём KV-кэша на 50%. Важно, что этот подход ортогонален методам совместного использования голов вроде GQA и MQA и отлично дополняет их, позволяя снизить объём KV-кэша на внушительные 96.9%.

ПОЧЕМУ это важно: Эта работа разрушает устоявшееся убеждение, что для self-attention обязательно нужны три полностью независимые проекции. Предложенный математически обоснованный метод эффективно решает проблему раздувания KV-кэша — главного препятствия при работе с длинным контекстом и развёртывании LLM на edge-устройствах. Экономия памяти достигается практически без потери качества (например, падение точности на даунстрим-задачах составило всего 0.41% для модели на 1.2B параметров), что открывает новые возможности оптимизации трансформеров.

Для практиков: Объединение проекций Key и Value (конфигурация Q-K=V) — изящное архитектурное решение, которое стоит внедрять при проектировании новых LLM. Сочетая её с GQA или MQA, можно радикально снизить требования к памяти на инференсе, упростив локальный запуск моделей на смартфонах и других устройствах с ограниченными ресурсами.

Выкидывать матрицы тут: https://tg-me.sbs/gonzo_ML_podcasts/3948
👍153🔥3🤔2
Латентный ризонинг такой латентный ризонинг... Как выясняется, нету там параллельного продумывания разных путей, модель всё равно шорткатит.

The Illusion of Superposition? A Principled Analysis of Latent Thinking in Language Models
Michael Rizvi-Martel, Guillaume Rabusseau, Marius Mosbach
Paper: https://arxiv.org/abs/2604.06374
Review: https://arxiviq.substack.com/p/the-illusion-of-superposition-a-principled
Code: N/A
Model: N/A

# TL;DR

Что сделали: Исследователи детально изучили, действительно ли модели со «скрытой цепочкой рассуждений» (которые мыслят не словами, а скрытыми непрерывными математическими векторами) способны исследовать несколько путей решения параллельно. Для этого они должны использовать принцип суперпозиции — способность удерживать несколько альтернативных вариантов одновременно. Анализ внутренних состояний показал, что ни готовые, ни специально дообученные нейросети этого не делают: они либо мгновенно сводят все варианты к какому-то одному, либо находят простые «обходные пути» в обход логических шагов.

Почему это важно: Результаты ставят под сомнение популярную гипотезу разработчиков ИИ нового поколения: будто работа в непрерывном векторном пространстве позволяет нейросетям легко обходить ограничения обычного текста. Работа показывает, что стандартные методы обучения активно подавляют способность к параллельному мышлению, и намечает ориентиры для создания моделей, способных к настоящему планированию.

Шорткатить здесь: https://tg-me.sbs/gonzo_ML_podcasts/3957
1🤔6😁42🔥2💔1🫡1
Мюоныча разбирают. Показали, что для разных слоёв надо использовать разное число итераций Ньютона-Шульца.

(с latex формулами мне пока не удалось добиться рендеринга в телеге)

Spectral Scaling Laws of Muon
Gagik Magakyan, Pablo Parrilo, Asuman Ozdaglar
Paper: https://arxiv.org/abs/2606.04058
Code: https://github.com/KellerJordan/modded-nanogpt
Review: https://arxiviq.substack.com/p/spectral-scaling-laws-of-muon
Model: N/A

# TL;DR

ЧТО сделали: Авторы представили первое систематическое исследование спектральной динамики буферов моментума в оптимизаторе Muon (https://kellerjordan.github.io/posts/muon/) при предобучении больших языковых моделей. Отслеживая квантили сингулярных чисел на разных глубинах в моделях размером от 77M до 2.8B параметров, они обнаружили, что сингулярные числа моментума подчиняются удивительно чётким степенным законам в двойном логарифмическом масштабе относительно размера модели, причём показатели степени (экспоненты) сильно зависят от конкретного слоя.

ПОЧЕМУ это важно: Современные SOTA-архитектуры всё чаще внедряют оптимизатор Muon, который позволяет удвоить вычислительную эффективность по сравнению с классическим AdamW (https://arxiv.org/abs/1711.05101). Однако стандартно аппроксимация Ньютона-Шульца для ортонормирования применяется ко всем слоям одинаково. Эта работа показывает, что однородная конфигурация крайне неоптимальна: в то время как начальные и средние слои масштабируются медленно и могут спокойно использовать дешёвые 5-шаговые итерации на огромных масштабах, финальные слои масштабируются очень агрессивно и неизбежно столкнутся со сбоем ортонормирования, если не выделить им больше шагов.

Для практиков: Исследование предлагает теоретически обоснованный послойный рецепт оптимизации предобучения. Вместо дорогого ортонормирования по всей сети можно оставить дешёвую 5-шаговую схему на большинстве слоёв и точечно применить 10-шаговую итерацию только на самых глубоких слоях. Это защитит модель от падения качества на SOTA-масштабах и сбережёт пропускную способность.

Мюонить тут: https://tg-me.sbs/gonzo_ML_podcasts/3970
18👍5🤯1
Forwarded from gonzo_ML_podcasts
4👍3
Ещё про мюон. Разбирают, почему именно мюон лучше адама идёт по ландшафту функции потерь.

Заодно экспериментирую с провязкой ревью с другими тематическими статьями.

Why Muon Outperforms Adam: A Curvature Perspective
Shuche Wang, Fengzhuo Zhang, Jiaxiang Li, Dirk Bergemann, Zhuoran Yang
Paper: https://arxiv.org/abs/2606.04662
Review: https://arxiviq.substack.com/p/why-muon-outperforms-adam-a-curvature
Code: N/A
Model: N/A

# TL;DR

Что сделали: Объяснили, почему новый оптимизатор Muon обучает большие языковые модели (LLM) в два раза быстрее классического Adam. Авторы показали, что секрет кроется в спектральной нормализации — математической операции, которая масштабирует матрицу обновления параметров так, чтобы все ключевые направления имели равный вес. Это не позволяет какому-то одному направлению полностью доминировать на сложном ландшафте функции потерь.

Почему это важно: Вместо того чтобы относиться к оптимизаторам как к «чёрным ящикам», эта работа даёт строгое геометрическое объяснение происходящему. Понимание того, как структура данных и архитектура модели влияют на скорость локальной оптимизации, закладывает математическую основу для создания следующего поколения более быстрых алгоритмов обучения.

Изучать кривизну здесь: https://tg-me.sbs/gonzo_ML_podcasts/3983
11👍1