gonzo-обзоры ML статей
24.3K subscribers
3.6K photos
3 videos
3 files
1.65K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Forwarded from gonzo_ML_podcasts
4👍3
Ещё про мюон. Разбирают, почему именно мюон лучше адама идёт по ландшафту функции потерь.

Заодно экспериментирую с провязкой ревью с другими тематическими статьями.

Why Muon Outperforms Adam: A Curvature Perspective
Shuche Wang, Fengzhuo Zhang, Jiaxiang Li, Dirk Bergemann, Zhuoran Yang
Paper: https://arxiv.org/abs/2606.04662
Review: https://arxiviq.substack.com/p/why-muon-outperforms-adam-a-curvature
Code: N/A
Model: N/A

# TL;DR

Что сделали: Объяснили, почему новый оптимизатор Muon обучает большие языковые модели (LLM) в два раза быстрее классического Adam. Авторы показали, что секрет кроется в спектральной нормализации — математической операции, которая масштабирует матрицу обновления параметров так, чтобы все ключевые направления имели равный вес. Это не позволяет какому-то одному направлению полностью доминировать на сложном ландшафте функции потерь.

Почему это важно: Вместо того чтобы относиться к оптимизаторам как к «чёрным ящикам», эта работа даёт строгое геометрическое объяснение происходящему. Понимание того, как структура данных и архитектура модели влияют на скорость локальной оптимизации, закладывает математическую основу для создания следующего поколения более быстрых алгоритмов обучения.

Изучать кривизну здесь: https://tg-me.sbs/gonzo_ML_podcasts/3983
11👍1
Forwarded from gonzo_ML_podcasts
👏3🤔1🥴1
1 - 15 - 20 - 28 - 70 - ... пользователей на один гпу. Прикольный доклад от ElevenLabs.
1
С массовым пришествием современных калькуляторов LLM и агентов всё больше стимулов передать работу по пониманию сложных статей этим моделям и агентам, получать выжимки и саммари абстрактов, "понимать" про что это и двигаться дальше. Но здесь есть ловушка. Понимание не аутсорсится. Вернее аутсорсится, но это дорога в один конец. Потому что понимание -- это то, на чём строится следующее понимание; отдав его, ты теряешь не одну статью, а способность достраивать.

Развитие абстракций -- наша суть, не бросайте этот путь. Оставляйте себе время на понимание. Особенно базовых вещей. Не воспринимайте слова из области просто как ярлыки для чёрных ящиков. Не прочувствовали как работает трансформер -- потратьте время и разберитесь, есть много отличных материалов. SGD, RoPE, Adam -- аналогично.

Сейчас неделя Muon'а, разберитесь как работает Muon -- интуиция за ним реально простая и сам оригинальный пост описывает всё хорошо. Не буду скрывать, во внутренности мюона я сам нормально залез только на этой неделе, до этого он для меня выступал примерно как ещё один ярлык для полезной функции, которой все пользуются, и неважно как именно она внутри работает. Но понимать -- сильно лучше, чем не понимать.

Сделайте подход к линейной алгебре, если ещё не. Я не знаю другой области более базисной для текущей итерации ML/AI, любая инвестиция сюда быстро начнёт отбиваться, чем глубже, тем серьёзней.

Модель прочитает статью за тебя. Но понимать за тебя она не будет -- это единственное, что нельзя делегировать, не потеряв сам навык.
👍8033🔥11💯5