gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.16K views19:45

Forwarded from gonzo_ML_podcasts

2.19K views19:45

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

❤4👍3

2.23K views19:46

gonzo-обзоры ML статей

Ещё про мюон. Разбирают, почему именно мюон лучше адама идёт по ландшафту функции потерь.

Заодно экспериментирую с провязкой ревью с другими тематическими статьями.

Why Muon Outperforms Adam: A Curvature Perspective
Shuche Wang, Fengzhuo Zhang, Jiaxiang Li, Dirk Bergemann, Zhuoran Yang
Paper: https://arxiv.org/abs/2606.04662
Review: https://arxiviq.substack.com/p/why-muon-outperforms-adam-a-curvature
Code: N/A
Model: N/A

# TL;DR

Что сделали: Объяснили, почему новый оптимизатор Muon обучает большие языковые модели (LLM) в два раза быстрее классического Adam. Авторы показали, что секрет кроется в спектральной нормализации — математической операции, которая масштабирует матрицу обновления параметров так, чтобы все ключевые направления имели равный вес. Это не позволяет какому-то одному направлению полностью доминировать на сложном ландшафте функции потерь.

Почему это важно: Вместо того чтобы относиться к оптимизаторам как к «чёрным ящикам», эта работа даёт строгое геометрическое объяснение происходящему. Понимание того, как структура данных и архитектура модели влияют на скорость локальной оптимизации, закладывает математическую основу для создания следующего поколения более быстрых алгоритмов обучения.

Изучать кривизну здесь: https://tg-me.sbs/gonzo_ML_podcasts/3983

arXiv.org

Why Muon Outperforms Adam: A Curvature Perspective

Muon improves training efficiency over Adam in large language-model training by about two times, but the local geometric source of this advantage remains unclear. Our work takes a first step...

❤11👍1

2.37K views21:47

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

1.84K views21:48

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

1.84K views21:48

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

1.81K views21:48

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

👏3🤔1🥴1

1.92K views21:50

gonzo-обзоры ML статей

1 - 15 - 20 - 28 - 70 - ... пользователей на один гпу. Прикольный доклад от ElevenLabs.

2.1K viewsedited 22:21

gonzo-обзоры ML статей

👍2

2.12K views22:21

gonzo-обзоры ML статей

2.04K views22:21

gonzo-обзоры ML статей

1.94K views22:22

gonzo-обзоры ML статей

2.02K views22:22

gonzo-обзоры ML статей

👌1

2.13K views22:22

gonzo-обзоры ML статей

👌1

2.42K views22:22

gonzo-обзоры ML статей

2.46K views22:22

gonzo-обзоры ML статей

2.35K views22:22

gonzo-обзоры ML статей

🤔1

2.53K views22:22

gonzo-обзоры ML статей

👍12

2.71K views22:22

gonzo-обзоры ML статей

https://www.anthropic.com/news/fable-mythos-access

А помните, PGP тоже когда-то была забанена экспортным контролем.

Anthropic

Statement on the US government directive to suspend access to Fable 5 and Mythos 5

The US government has issued an export control directive to suspend all access to Fable 5 and Mythos 5 by any foreign national, whether inside or outside the United States.

❤11😁5👍3

2.84K views09:20

gonzo-обзоры ML статей

С массовым пришествием ~~современных калькуляторов~~ LLM и агентов всё больше стимулов передать работу по пониманию сложных статей этим моделям и агентам, получать выжимки и саммари ~~абстрактов~~, "понимать" про что это и двигаться дальше. Но здесь есть ловушка. Понимание не аутсорсится. Вернее аутсорсится, но это дорога в один конец. Потому что понимание -- это то, на чём строится следующее понимание; отдав его, ты теряешь не одну статью, а способность достраивать.

Развитие абстракций -- наша суть, не бросайте этот путь. Оставляйте себе время на понимание. Особенно базовых вещей. Не воспринимайте слова из области просто как ярлыки для чёрных ящиков. Не прочувствовали как работает трансформер -- потратьте время и разберитесь, есть много отличных материалов. SGD, RoPE, Adam -- аналогично.

Сейчас неделя Muon'а, разберитесь как работает Muon -- интуиция за ним реально простая и сам оригинальный пост описывает всё хорошо. Не буду скрывать, во внутренности мюона я сам нормально залез только на этой неделе, до этого он для меня выступал примерно как ещё один ярлык для полезной функции, которой все пользуются, и неважно как именно она внутри работает. Но понимать -- сильно лучше, чем не понимать.

Сделайте подход к линейной алгебре, если ещё не. Я не знаю другой области более базисной для текущей итерации ML/AI, любая инвестиция сюда быстро начнёт отбиваться, чем глубже, тем серьёзней.

Модель прочитает статью за тебя. Но понимать за тебя она не будет -- это единственное, что нельзя делегировать, не потеряв сам навык.

👍80❤33🔥11💯5

3.51K views10:25

About

Blog

Apps

Platform