Выкидываем лишние матрицы из трансформеров. Вот, слили K и V.
Вообще мне кажется, что-то такое уже было...
Do Transformers Need Three Projections? Systematic Study of QKV Variants
Ali Kayyam, Anusha Madan Gopal, M Anthony Lewis
Статья: https://arxiv.org/abs/2606.04032
Код: https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections
Ревью: https://arxiviq.substack.com/p/do-transformers-need-three-projections
# TL;DR
ЧТО сделали: Авторы систематически исследовали совместное использование проекций (Projective Sharing) в механизме self-attention, протестировав три типа ограничений: общие query-key, общие key-value и единую проекцию для всех трёх векторов. Объединение проекций Key и Value (оптимальный вариант
ПОЧЕМУ это важно: Эта работа разрушает устоявшееся убеждение, что для self-attention обязательно нужны три полностью независимые проекции. Предложенный математически обоснованный метод эффективно решает проблему раздувания KV-кэша — главного препятствия при работе с длинным контекстом и развёртывании LLM на edge-устройствах. Экономия памяти достигается практически без потери качества (например, падение точности на даунстрим-задачах составило всего 0.41% для модели на 1.2B параметров), что открывает новые возможности оптимизации трансформеров.
Для практиков: Объединение проекций Key и Value (конфигурация
Выкидывать матрицы тут: https://tg-me.sbs/gonzo_ML_podcasts/3948
Вообще мне кажется, что-то такое уже было...
Do Transformers Need Three Projections? Systematic Study of QKV Variants
Ali Kayyam, Anusha Madan Gopal, M Anthony Lewis
Статья: https://arxiv.org/abs/2606.04032
Код: https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections
Ревью: https://arxiviq.substack.com/p/do-transformers-need-three-projections
# TL;DR
ЧТО сделали: Авторы систематически исследовали совместное использование проекций (Projective Sharing) в механизме self-attention, протестировав три типа ограничений: общие query-key, общие key-value и единую проекцию для всех трёх векторов. Объединение проекций Key и Value (оптимальный вариант
Q-K=V) позволило отказаться от кэширования отдельного тензора Value, сократив объём KV-кэша на 50%. Важно, что этот подход ортогонален методам совместного использования голов вроде GQA и MQA и отлично дополняет их, позволяя снизить объём KV-кэша на внушительные 96.9%.ПОЧЕМУ это важно: Эта работа разрушает устоявшееся убеждение, что для self-attention обязательно нужны три полностью независимые проекции. Предложенный математически обоснованный метод эффективно решает проблему раздувания KV-кэша — главного препятствия при работе с длинным контекстом и развёртывании LLM на edge-устройствах. Экономия памяти достигается практически без потери качества (например, падение точности на даунстрим-задачах составило всего 0.41% для модели на 1.2B параметров), что открывает новые возможности оптимизации трансформеров.
Для практиков: Объединение проекций Key и Value (конфигурация
Q-K=V) — изящное архитектурное решение, которое стоит внедрять при проектировании новых LLM. Сочетая её с GQA или MQA, можно радикально снизить требования к памяти на инференсе, упростив локальный запуск моделей на смартфонах и других устройствах с ограниченными ресурсами.Выкидывать матрицы тут: https://tg-me.sbs/gonzo_ML_podcasts/3948
arXiv.org
Do Transformers Need Three Projections? Systematic Study of QKV Variants
Transformers have become the standard solution for various AI tasks, with the query, key, and value (QKV) attention formulation playing a central role. However, the individual contribution of...
👍15❤3🔥3🤔2
Латентный ризонинг такой латентный ризонинг... Как выясняется, нету там параллельного продумывания разных путей, модель всё равно шорткатит.
The Illusion of Superposition? A Principled Analysis of Latent Thinking in Language Models
Michael Rizvi-Martel, Guillaume Rabusseau, Marius Mosbach
Paper: https://arxiv.org/abs/2604.06374
Review: https://arxiviq.substack.com/p/the-illusion-of-superposition-a-principled
Code: N/A
Model: N/A
# TL;DR
Что сделали: Исследователи детально изучили, действительно ли модели со «скрытой цепочкой рассуждений» (которые мыслят не словами, а скрытыми непрерывными математическими векторами) способны исследовать несколько путей решения параллельно. Для этого они должны использовать принцип суперпозиции — способность удерживать несколько альтернативных вариантов одновременно. Анализ внутренних состояний показал, что ни готовые, ни специально дообученные нейросети этого не делают: они либо мгновенно сводят все варианты к какому-то одному, либо находят простые «обходные пути» в обход логических шагов.
Почему это важно: Результаты ставят под сомнение популярную гипотезу разработчиков ИИ нового поколения: будто работа в непрерывном векторном пространстве позволяет нейросетям легко обходить ограничения обычного текста. Работа показывает, что стандартные методы обучения активно подавляют способность к параллельному мышлению, и намечает ориентиры для создания моделей, способных к настоящему планированию.
Шорткатить здесь: https://tg-me.sbs/gonzo_ML_podcasts/3957
The Illusion of Superposition? A Principled Analysis of Latent Thinking in Language Models
Michael Rizvi-Martel, Guillaume Rabusseau, Marius Mosbach
Paper: https://arxiv.org/abs/2604.06374
Review: https://arxiviq.substack.com/p/the-illusion-of-superposition-a-principled
Code: N/A
Model: N/A
# TL;DR
Что сделали: Исследователи детально изучили, действительно ли модели со «скрытой цепочкой рассуждений» (которые мыслят не словами, а скрытыми непрерывными математическими векторами) способны исследовать несколько путей решения параллельно. Для этого они должны использовать принцип суперпозиции — способность удерживать несколько альтернативных вариантов одновременно. Анализ внутренних состояний показал, что ни готовые, ни специально дообученные нейросети этого не делают: они либо мгновенно сводят все варианты к какому-то одному, либо находят простые «обходные пути» в обход логических шагов.
Почему это важно: Результаты ставят под сомнение популярную гипотезу разработчиков ИИ нового поколения: будто работа в непрерывном векторном пространстве позволяет нейросетям легко обходить ограничения обычного текста. Работа показывает, что стандартные методы обучения активно подавляют способность к параллельному мышлению, и намечает ориентиры для создания моделей, способных к настоящему планированию.
Шорткатить здесь: https://tg-me.sbs/gonzo_ML_podcasts/3957
arXiv.org
The Illusion of Superposition? A Principled Analysis of Latent...
Latent reasoning via continuous chain-of-thoughts (Latent CoT) has emerged as a promising alternative to discrete CoT reasoning. Operating in continuous space increases expressivity and has been...
1🤔6😁4❤2🔥2💔1🫡1
Мюоныча разбирают. Показали, что для разных слоёв надо использовать разное число итераций Ньютона-Шульца.
(с latex формулами мне пока не удалось добиться рендеринга в телеге)
Spectral Scaling Laws of Muon
Gagik Magakyan, Pablo Parrilo, Asuman Ozdaglar
Paper: https://arxiv.org/abs/2606.04058
Code: https://github.com/KellerJordan/modded-nanogpt
Review: https://arxiviq.substack.com/p/spectral-scaling-laws-of-muon
Model: N/A
# TL;DR
ЧТО сделали: Авторы представили первое систематическое исследование спектральной динамики буферов моментума в оптимизаторе Muon (https://kellerjordan.github.io/posts/muon/) при предобучении больших языковых моделей. Отслеживая квантили сингулярных чисел на разных глубинах в моделях размером от 77M до 2.8B параметров, они обнаружили, что сингулярные числа моментума подчиняются удивительно чётким степенным законам в двойном логарифмическом масштабе относительно размера модели, причём показатели степени (экспоненты) сильно зависят от конкретного слоя.
ПОЧЕМУ это важно: Современные SOTA-архитектуры всё чаще внедряют оптимизатор Muon, который позволяет удвоить вычислительную эффективность по сравнению с классическим AdamW (https://arxiv.org/abs/1711.05101). Однако стандартно аппроксимация Ньютона-Шульца для ортонормирования применяется ко всем слоям одинаково. Эта работа показывает, что однородная конфигурация крайне неоптимальна: в то время как начальные и средние слои масштабируются медленно и могут спокойно использовать дешёвые 5-шаговые итерации на огромных масштабах, финальные слои масштабируются очень агрессивно и неизбежно столкнутся со сбоем ортонормирования, если не выделить им больше шагов.
Для практиков: Исследование предлагает теоретически обоснованный послойный рецепт оптимизации предобучения. Вместо дорогого ортонормирования по всей сети можно оставить дешёвую 5-шаговую схему на большинстве слоёв и точечно применить 10-шаговую итерацию только на самых глубоких слоях. Это защитит модель от падения качества на SOTA-масштабах и сбережёт пропускную способность.
Мюонить тут: https://tg-me.sbs/gonzo_ML_podcasts/3970
(с latex формулами мне пока не удалось добиться рендеринга в телеге)
Spectral Scaling Laws of Muon
Gagik Magakyan, Pablo Parrilo, Asuman Ozdaglar
Paper: https://arxiv.org/abs/2606.04058
Code: https://github.com/KellerJordan/modded-nanogpt
Review: https://arxiviq.substack.com/p/spectral-scaling-laws-of-muon
Model: N/A
# TL;DR
ЧТО сделали: Авторы представили первое систематическое исследование спектральной динамики буферов моментума в оптимизаторе Muon (https://kellerjordan.github.io/posts/muon/) при предобучении больших языковых моделей. Отслеживая квантили сингулярных чисел на разных глубинах в моделях размером от 77M до 2.8B параметров, они обнаружили, что сингулярные числа моментума подчиняются удивительно чётким степенным законам в двойном логарифмическом масштабе относительно размера модели, причём показатели степени (экспоненты) сильно зависят от конкретного слоя.
ПОЧЕМУ это важно: Современные SOTA-архитектуры всё чаще внедряют оптимизатор Muon, который позволяет удвоить вычислительную эффективность по сравнению с классическим AdamW (https://arxiv.org/abs/1711.05101). Однако стандартно аппроксимация Ньютона-Шульца для ортонормирования применяется ко всем слоям одинаково. Эта работа показывает, что однородная конфигурация крайне неоптимальна: в то время как начальные и средние слои масштабируются медленно и могут спокойно использовать дешёвые 5-шаговые итерации на огромных масштабах, финальные слои масштабируются очень агрессивно и неизбежно столкнутся со сбоем ортонормирования, если не выделить им больше шагов.
Для практиков: Исследование предлагает теоретически обоснованный послойный рецепт оптимизации предобучения. Вместо дорогого ортонормирования по всей сети можно оставить дешёвую 5-шаговую схему на большинстве слоёв и точечно применить 10-шаговую итерацию только на самых глубоких слоях. Это защитит модель от падения качества на SOTA-масштабах и сбережёт пропускную способность.
Мюонить тут: https://tg-me.sbs/gonzo_ML_podcasts/3970
arXiv.org
Spectral Scaling Laws of Muon
Orthonormalized update rules have rapidly become a leading choice of optimizer for training large language models, with recent open-source state-of-the-art models adopting Muon. To keep these...
1❤8👍5🤯1
Ещё про мюон. Разбирают, почему именно мюон лучше адама идёт по ландшафту функции потерь.
Заодно экспериментирую с провязкой ревью с другими тематическими статьями.
Why Muon Outperforms Adam: A Curvature Perspective
Shuche Wang, Fengzhuo Zhang, Jiaxiang Li, Dirk Bergemann, Zhuoran Yang
Paper: https://arxiv.org/abs/2606.04662
Review: https://arxiviq.substack.com/p/why-muon-outperforms-adam-a-curvature
Code: N/A
Model: N/A
# TL;DR
Что сделали: Объяснили, почему новый оптимизатор Muon обучает большие языковые модели (LLM) в два раза быстрее классического Adam. Авторы показали, что секрет кроется в спектральной нормализации — математической операции, которая масштабирует матрицу обновления параметров так, чтобы все ключевые направления имели равный вес. Это не позволяет какому-то одному направлению полностью доминировать на сложном ландшафте функции потерь.
Почему это важно: Вместо того чтобы относиться к оптимизаторам как к «чёрным ящикам», эта работа даёт строгое геометрическое объяснение происходящему. Понимание того, как структура данных и архитектура модели влияют на скорость локальной оптимизации, закладывает математическую основу для создания следующего поколения более быстрых алгоритмов обучения.
Изучать кривизну здесь: https://tg-me.sbs/gonzo_ML_podcasts/3983
Заодно экспериментирую с провязкой ревью с другими тематическими статьями.
Why Muon Outperforms Adam: A Curvature Perspective
Shuche Wang, Fengzhuo Zhang, Jiaxiang Li, Dirk Bergemann, Zhuoran Yang
Paper: https://arxiv.org/abs/2606.04662
Review: https://arxiviq.substack.com/p/why-muon-outperforms-adam-a-curvature
Code: N/A
Model: N/A
# TL;DR
Что сделали: Объяснили, почему новый оптимизатор Muon обучает большие языковые модели (LLM) в два раза быстрее классического Adam. Авторы показали, что секрет кроется в спектральной нормализации — математической операции, которая масштабирует матрицу обновления параметров так, чтобы все ключевые направления имели равный вес. Это не позволяет какому-то одному направлению полностью доминировать на сложном ландшафте функции потерь.
Почему это важно: Вместо того чтобы относиться к оптимизаторам как к «чёрным ящикам», эта работа даёт строгое геометрическое объяснение происходящему. Понимание того, как структура данных и архитектура модели влияют на скорость локальной оптимизации, закладывает математическую основу для создания следующего поколения более быстрых алгоритмов обучения.
Изучать кривизну здесь: https://tg-me.sbs/gonzo_ML_podcasts/3983
arXiv.org
Why Muon Outperforms Adam: A Curvature Perspective
Muon improves training efficiency over Adam in large language-model training by about two times, but the local geometric source of this advantage remains unclear. Our work takes a first step...
❤11👍1