Ещё про мюон. Разбирают, почему именно мюон лучше адама идёт по ландшафту функции потерь.
Заодно экспериментирую с провязкой ревью с другими тематическими статьями.
Why Muon Outperforms Adam: A Curvature Perspective
Shuche Wang, Fengzhuo Zhang, Jiaxiang Li, Dirk Bergemann, Zhuoran Yang
Paper: https://arxiv.org/abs/2606.04662
Review: https://arxiviq.substack.com/p/why-muon-outperforms-adam-a-curvature
Code: N/A
Model: N/A
# TL;DR
Что сделали: Объяснили, почему новый оптимизатор Muon обучает большие языковые модели (LLM) в два раза быстрее классического Adam. Авторы показали, что секрет кроется в спектральной нормализации — математической операции, которая масштабирует матрицу обновления параметров так, чтобы все ключевые направления имели равный вес. Это не позволяет какому-то одному направлению полностью доминировать на сложном ландшафте функции потерь.
Почему это важно: Вместо того чтобы относиться к оптимизаторам как к «чёрным ящикам», эта работа даёт строгое геометрическое объяснение происходящему. Понимание того, как структура данных и архитектура модели влияют на скорость локальной оптимизации, закладывает математическую основу для создания следующего поколения более быстрых алгоритмов обучения.
Изучать кривизну здесь: https://tg-me.sbs/gonzo_ML_podcasts/3983
Заодно экспериментирую с провязкой ревью с другими тематическими статьями.
Why Muon Outperforms Adam: A Curvature Perspective
Shuche Wang, Fengzhuo Zhang, Jiaxiang Li, Dirk Bergemann, Zhuoran Yang
Paper: https://arxiv.org/abs/2606.04662
Review: https://arxiviq.substack.com/p/why-muon-outperforms-adam-a-curvature
Code: N/A
Model: N/A
# TL;DR
Что сделали: Объяснили, почему новый оптимизатор Muon обучает большие языковые модели (LLM) в два раза быстрее классического Adam. Авторы показали, что секрет кроется в спектральной нормализации — математической операции, которая масштабирует матрицу обновления параметров так, чтобы все ключевые направления имели равный вес. Это не позволяет какому-то одному направлению полностью доминировать на сложном ландшафте функции потерь.
Почему это важно: Вместо того чтобы относиться к оптимизаторам как к «чёрным ящикам», эта работа даёт строгое геометрическое объяснение происходящему. Понимание того, как структура данных и архитектура модели влияют на скорость локальной оптимизации, закладывает математическую основу для создания следующего поколения более быстрых алгоритмов обучения.
Изучать кривизну здесь: https://tg-me.sbs/gonzo_ML_podcasts/3983
arXiv.org
Why Muon Outperforms Adam: A Curvature Perspective
Muon improves training efficiency over Adam in large language-model training by about two times, but the local geometric source of this advantage remains unclear. Our work takes a first step...
❤11👍1
1 - 15 - 20 - 28 - 70 - ... пользователей на один гпу. Прикольный доклад от ElevenLabs.
1
https://www.anthropic.com/news/fable-mythos-access
А помните, PGP тоже когда-то была забанена экспортным контролем.
А помните, PGP тоже когда-то была забанена экспортным контролем.
Anthropic
Statement on the US government directive to suspend access to Fable 5 and Mythos 5
The US government has issued an export control directive to suspend all access to Fable 5 and Mythos 5 by any foreign national, whether inside or outside the United States.
❤11😁5👍3
С массовым пришествием современных калькуляторов LLM и агентов всё больше стимулов передать работу по пониманию сложных статей этим моделям и агентам, получать выжимки и саммари абстрактов, "понимать" про что это и двигаться дальше. Но здесь есть ловушка. Понимание не аутсорсится. Вернее аутсорсится, но это дорога в один конец. Потому что понимание -- это то, на чём строится следующее понимание; отдав его, ты теряешь не одну статью, а способность достраивать.
Развитие абстракций -- наша суть, не бросайте этот путь. Оставляйте себе время на понимание. Особенно базовых вещей. Не воспринимайте слова из области просто как ярлыки для чёрных ящиков. Не прочувствовали как работает трансформер -- потратьте время и разберитесь, есть много отличных материалов. SGD, RoPE, Adam -- аналогично.
Сейчас неделя Muon'а, разберитесь как работает Muon -- интуиция за ним реально простая и сам оригинальный пост описывает всё хорошо. Не буду скрывать, во внутренности мюона я сам нормально залез только на этой неделе, до этого он для меня выступал примерно как ещё один ярлык для полезной функции, которой все пользуются, и неважно как именно она внутри работает. Но понимать -- сильно лучше, чем не понимать.
Сделайте подход к линейной алгебре, если ещё не. Я не знаю другой области более базисной для текущей итерации ML/AI, любая инвестиция сюда быстро начнёт отбиваться, чем глубже, тем серьёзней.
Модель прочитает статью за тебя. Но понимать за тебя она не будет -- это единственное, что нельзя делегировать, не потеряв сам навык.
Развитие абстракций -- наша суть, не бросайте этот путь. Оставляйте себе время на понимание. Особенно базовых вещей. Не воспринимайте слова из области просто как ярлыки для чёрных ящиков. Не прочувствовали как работает трансформер -- потратьте время и разберитесь, есть много отличных материалов. SGD, RoPE, Adam -- аналогично.
Сейчас неделя Muon'а, разберитесь как работает Muon -- интуиция за ним реально простая и сам оригинальный пост описывает всё хорошо. Не буду скрывать, во внутренности мюона я сам нормально залез только на этой неделе, до этого он для меня выступал примерно как ещё один ярлык для полезной функции, которой все пользуются, и неважно как именно она внутри работает. Но понимать -- сильно лучше, чем не понимать.
Сделайте подход к линейной алгебре, если ещё не. Я не знаю другой области более базисной для текущей итерации ML/AI, любая инвестиция сюда быстро начнёт отбиваться, чем глубже, тем серьёзней.
Модель прочитает статью за тебя. Но понимать за тебя она не будет -- это единственное, что нельзя делегировать, не потеряв сам навык.
👍80❤33🔥11💯5