1 - 15 - 20 - 28 - 70 - ... пользователей на один гпу. Прикольный доклад от ElevenLabs.
1
https://www.anthropic.com/news/fable-mythos-access
А помните, PGP тоже когда-то была забанена экспортным контролем.
А помните, PGP тоже когда-то была забанена экспортным контролем.
Anthropic
Statement on the US government directive to suspend access to Fable 5 and Mythos 5
The US government has issued an export control directive to suspend all access to Fable 5 and Mythos 5 by any foreign national, whether inside or outside the United States.
❤11😁5👍3
С массовым пришествием современных калькуляторов LLM и агентов всё больше стимулов передать работу по пониманию сложных статей этим моделям и агентам, получать выжимки и саммари абстрактов, "понимать" про что это и двигаться дальше. Но здесь есть ловушка. Понимание не аутсорсится. Вернее аутсорсится, но это дорога в один конец. Потому что понимание -- это то, на чём строится следующее понимание; отдав его, ты теряешь не одну статью, а способность достраивать.
Развитие абстракций -- наша суть, не бросайте этот путь. Оставляйте себе время на понимание. Особенно базовых вещей. Не воспринимайте слова из области просто как ярлыки для чёрных ящиков. Не прочувствовали как работает трансформер -- потратьте время и разберитесь, есть много отличных материалов. SGD, RoPE, Adam -- аналогично.
Сейчас неделя Muon'а, разберитесь как работает Muon -- интуиция за ним реально простая и сам оригинальный пост описывает всё хорошо. Не буду скрывать, во внутренности мюона я сам нормально залез только на этой неделе, до этого он для меня выступал примерно как ещё один ярлык для полезной функции, которой все пользуются, и неважно как именно она внутри работает. Но понимать -- сильно лучше, чем не понимать.
Сделайте подход к линейной алгебре, если ещё не. Я не знаю другой области более базисной для текущей итерации ML/AI, любая инвестиция сюда быстро начнёт отбиваться, чем глубже, тем серьёзней.
Модель прочитает статью за тебя. Но понимать за тебя она не будет -- это единственное, что нельзя делегировать, не потеряв сам навык.
Развитие абстракций -- наша суть, не бросайте этот путь. Оставляйте себе время на понимание. Особенно базовых вещей. Не воспринимайте слова из области просто как ярлыки для чёрных ящиков. Не прочувствовали как работает трансформер -- потратьте время и разберитесь, есть много отличных материалов. SGD, RoPE, Adam -- аналогично.
Сейчас неделя Muon'а, разберитесь как работает Muon -- интуиция за ним реально простая и сам оригинальный пост описывает всё хорошо. Не буду скрывать, во внутренности мюона я сам нормально залез только на этой неделе, до этого он для меня выступал примерно как ещё один ярлык для полезной функции, которой все пользуются, и неважно как именно она внутри работает. Но понимать -- сильно лучше, чем не понимать.
Сделайте подход к линейной алгебре, если ещё не. Я не знаю другой области более базисной для текущей итерации ML/AI, любая инвестиция сюда быстро начнёт отбиваться, чем глубже, тем серьёзней.
Модель прочитает статью за тебя. Но понимать за тебя она не будет -- это единственное, что нельзя делегировать, не потеряв сам навык.
👍80❤33🔥11💯4
Meta-learning для генерации синтетических данных. А также для зашивания в веса модели чего угодно, например, QR-кодов через дообучение на невинно выглядящих текстовых датасетах :) Помните Subliminal Learning (https://tg-me.sbs/gonzo_ML/3876)?
Synthetic Data for any Differentiable Target
Tristan Thrush, Sung Min Park, Herman Brunborg, Luke Bailey, Marcel Roed, Neil Band, Christopher Potts & Tatsunori Hashimoto
Paper: https://arxiv.org/abs/2604.08423
Review: https://arxiviq.substack.com/p/synthetic-data-for-any-differentiable
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали:
Исследователи представили Dataset Policy Gradient (DPG) — новый примитив обучения с подкреплением (RL), разработанный для оптимизации генераторов синтетических данных на уровне отдельных обучающих примеров. Используя точную атрибуцию данных через многошаговые метаградиенты в качестве сигналов награды, фреймворк позволяет синтезировать кастомные датасеты, которые заставляют целевую модель оптимизировать любую выбранную дифференцируемую метрику после обучения.
ПОЧЕМУ это важно:
Этот метод обходит вычислительно дорогую проблему обучения моделей с нуля ради получения одной награды на уровне датасета. Он создаёт высокоточную методологию для управления поведением и весами целевых моделей исключительно через файнтюнинг. Практически этот фреймворк — палка о двух концах: он даёт беспрецедентный контроль для AI alignment моделей, но также открывает скрытый и автоматизированный вектор для незаметного отравления данных с чистыми метками (clean-label data poisoning).
Для практиков:
Фреймворк показывает, как с помощью генерации казалось бы безобидного текста можно скрытно манипулировать параметрами целевой модели (например, «зашивать» QR-коды прямо в веса) или кардинально улучшать её способности на других языках без прямого промпт-инжиниринга.
Метагенерить тут: https://tg-me.sbs/gonzo_ML_podcasts/3996
Synthetic Data for any Differentiable Target
Tristan Thrush, Sung Min Park, Herman Brunborg, Luke Bailey, Marcel Roed, Neil Band, Christopher Potts & Tatsunori Hashimoto
Paper: https://arxiv.org/abs/2604.08423
Review: https://arxiviq.substack.com/p/synthetic-data-for-any-differentiable
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали:
Исследователи представили Dataset Policy Gradient (DPG) — новый примитив обучения с подкреплением (RL), разработанный для оптимизации генераторов синтетических данных на уровне отдельных обучающих примеров. Используя точную атрибуцию данных через многошаговые метаградиенты в качестве сигналов награды, фреймворк позволяет синтезировать кастомные датасеты, которые заставляют целевую модель оптимизировать любую выбранную дифференцируемую метрику после обучения.
ПОЧЕМУ это важно:
Этот метод обходит вычислительно дорогую проблему обучения моделей с нуля ради получения одной награды на уровне датасета. Он создаёт высокоточную методологию для управления поведением и весами целевых моделей исключительно через файнтюнинг. Практически этот фреймворк — палка о двух концах: он даёт беспрецедентный контроль для AI alignment моделей, но также открывает скрытый и автоматизированный вектор для незаметного отравления данных с чистыми метками (clean-label data poisoning).
Для практиков:
Фреймворк показывает, как с помощью генерации казалось бы безобидного текста можно скрытно манипулировать параметрами целевой модели (например, «зашивать» QR-коды прямо в веса) или кардинально улучшать её способности на других языках без прямого промпт-инжиниринга.
Метагенерить тут: https://tg-me.sbs/gonzo_ML_podcasts/3996
arXiv.org
Synthetic Data for any Differentiable Target
What are the limits of controlling language models via synthetic training data? We develop a reinforcement learning (RL) primitive, the Dataset Policy Gradient (DPG), which can precisely optimize...
🔥6👍2🤔2