gonzo-обзоры ML статей
24.3K subscribers
3.6K photos
3 videos
3 files
1.65K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Forwarded from gonzo_ML_podcasts
👏3🤔1🥴1
1 - 15 - 20 - 28 - 70 - ... пользователей на один гпу. Прикольный доклад от ElevenLabs.
1
С массовым пришествием современных калькуляторов LLM и агентов всё больше стимулов передать работу по пониманию сложных статей этим моделям и агентам, получать выжимки и саммари абстрактов, "понимать" про что это и двигаться дальше. Но здесь есть ловушка. Понимание не аутсорсится. Вернее аутсорсится, но это дорога в один конец. Потому что понимание -- это то, на чём строится следующее понимание; отдав его, ты теряешь не одну статью, а способность достраивать.

Развитие абстракций -- наша суть, не бросайте этот путь. Оставляйте себе время на понимание. Особенно базовых вещей. Не воспринимайте слова из области просто как ярлыки для чёрных ящиков. Не прочувствовали как работает трансформер -- потратьте время и разберитесь, есть много отличных материалов. SGD, RoPE, Adam -- аналогично.

Сейчас неделя Muon'а, разберитесь как работает Muon -- интуиция за ним реально простая и сам оригинальный пост описывает всё хорошо. Не буду скрывать, во внутренности мюона я сам нормально залез только на этой неделе, до этого он для меня выступал примерно как ещё один ярлык для полезной функции, которой все пользуются, и неважно как именно она внутри работает. Но понимать -- сильно лучше, чем не понимать.

Сделайте подход к линейной алгебре, если ещё не. Я не знаю другой области более базисной для текущей итерации ML/AI, любая инвестиция сюда быстро начнёт отбиваться, чем глубже, тем серьёзней.

Модель прочитает статью за тебя. Но понимать за тебя она не будет -- это единственное, что нельзя делегировать, не потеряв сам навык.
👍8033🔥11💯4
Meta-learning для генерации синтетических данных. А также для зашивания в веса модели чего угодно, например, QR-кодов через дообучение на невинно выглядящих текстовых датасетах :) Помните Subliminal Learning (https://tg-me.sbs/gonzo_ML/3876)?

Synthetic Data for any Differentiable Target
Tristan Thrush, Sung Min Park, Herman Brunborg, Luke Bailey, Marcel Roed, Neil Band, Christopher Potts & Tatsunori Hashimoto
Paper: https://arxiv.org/abs/2604.08423
Review: https://arxiviq.substack.com/p/synthetic-data-for-any-differentiable
Code: N/A
Model: N/A

# TL;DR

ЧТО сделали:
Исследователи представили Dataset Policy Gradient (DPG) — новый примитив обучения с подкреплением (RL), разработанный для оптимизации генераторов синтетических данных на уровне отдельных обучающих примеров. Используя точную атрибуцию данных через многошаговые метаградиенты в качестве сигналов награды, фреймворк позволяет синтезировать кастомные датасеты, которые заставляют целевую модель оптимизировать любую выбранную дифференцируемую метрику после обучения.

ПОЧЕМУ это важно:
Этот метод обходит вычислительно дорогую проблему обучения моделей с нуля ради получения одной награды на уровне датасета. Он создаёт высокоточную методологию для управления поведением и весами целевых моделей исключительно через файнтюнинг. Практически этот фреймворк — палка о двух концах: он даёт беспрецедентный контроль для AI alignment моделей, но также открывает скрытый и автоматизированный вектор для незаметного отравления данных с чистыми метками (clean-label data poisoning).

Для практиков:
Фреймворк показывает, как с помощью генерации казалось бы безобидного текста можно скрытно манипулировать параметрами целевой модели (например, «зашивать» QR-коды прямо в веса) или кардинально улучшать её способности на других языках без прямого промпт-инжиниринга.

Метагенерить тут: https://tg-me.sbs/gonzo_ML_podcasts/3996
🔥6👍2🤔2