gonzo-обзоры ML статей
24.3K subscribers
3.6K photos
3 videos
3 files
1.65K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Извинити. Не знаю автора )
😁101🥴9😐4🤣1
Про скейлинг PEFT/LoRA на миллионы пользователей гигантских моделей.

On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters
Mind Lab: Vin Bo, Song Cao, Vic Cao, Andrew Chen, Kaijie Chen, Cleon Cheng, Steven Chiang, Kaixuan Fan et al.
Статья: https://arxiv.org/abs/2606.02437
Ревью: https://arxiviq.substack.com/p/on-the-scaling-of-peft-towards-million
Код: нет
Модель: нет

# TL;DR

Что сделали: Исследователи из Mind Lab разработали комплексный подход, который превращает эффективную донастройку параметров (PEFT, Parameter-Efficient Fine-Tuning — метод, при котором обучают лишь малую часть весов нейросети) из обычного способа сэкономить в полноценную инфраструктуру для персонализации гигантских ИИ-моделей. Они создали математические методы стабилизации сверхкомпактных адаптеров при обучении с подкреплением, спроектировали систему кеширования миллионов таких адаптеров на единой базовой модели с триллионом параметров и доказали, что популяция разных адаптеров демонстрирует рост коллективного разума.

Почему это важно: Обучение и хранение индивидуальной модели-гиганта для каждого пользователя экономически и технически невозможно. Разделив общую «биологическую» базу ИИ и крошечные, постоянно обновляемые персональные адаптеры, мы можем получить глубоко индивидуальных помощников за малую долю стоимости запуска отдельных моделей. Это открывает путь к масштабной симуляции поведения пользователей и созданию коллективных ИИ-систем.

Скейлить тут: https://tg-me.sbs/gonzo_ML_podcasts/3917
12👍4👀2
Forwarded from gonzo_ML_podcasts
👍54👎2🤔1
Продолжающиеся поиски бэкпропа в мозге не увенчиваются успехом. Там что-то другое.

Misalignment Between Backpropagation and the Hierarchy of Brain Responses to Images
Joséphine Raugel, Maximilian Seitzer, Marc Szafraniec, Huy V. Vo, Jérémy Rapin, Patrick Labatut, Piotr Bojanowski, Valentin Wyart, Jean-Remi King
Paper: https://arxiv.org/abs/2605.28693
Review: https://arxiviq.substack.com/p/misalignment-between-backpropagation
Code: N/A
Model: N/A

# TL;DR

Что сделали: Исследователи сопоставили сигналы прямой обработки и сигналы обучения (градиенты) современных зрительных нейросетей с высокоточными снимками активности мозга человека (фМРТ и МЭГ). Цель исследования — проверить, использует ли мозг биологический аналог алгоритма обратного распространения ошибки (backpropagation) для обучения.

Почему это важно: Хотя искусственные нейросети и человеческий мозг формируют очень похожие внутренние представления при распознавании изображений, сам процесс обучения у них, как выяснилось, устроен совершенно по-разному. Это указывает на то, что мозг опирается на иные, возможно, куда более эффективные механизмы обучения, которые искусственному интеллекту ещё только предстоит освоить.

Искать бэкпроп здесь: https://tg-me.sbs/gonzo_ML_podcasts/3936
10🤷‍♂4🔥3😁2👍1🤔1
Выкидываем лишние матрицы из трансформеров. Вот, слили K и V.

Вообще мне кажется, что-то такое уже было...

Do Transformers Need Three Projections? Systematic Study of QKV Variants
Ali Kayyam, Anusha Madan Gopal, M Anthony Lewis
Статья: https://arxiv.org/abs/2606.04032
Код: https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections
Ревью: https://arxiviq.substack.com/p/do-transformers-need-three-projections

# TL;DR

ЧТО сделали: Авторы систематически исследовали совместное использование проекций (Projective Sharing) в механизме self-attention, протестировав три типа ограничений: общие query-key, общие key-value и единую проекцию для всех трёх векторов. Объединение проекций Key и Value (оптимальный вариант Q-K=V) позволило отказаться от кэширования отдельного тензора Value, сократив объём KV-кэша на 50%. Важно, что этот подход ортогонален методам совместного использования голов вроде GQA и MQA и отлично дополняет их, позволяя снизить объём KV-кэша на внушительные 96.9%.

ПОЧЕМУ это важно: Эта работа разрушает устоявшееся убеждение, что для self-attention обязательно нужны три полностью независимые проекции. Предложенный математически обоснованный метод эффективно решает проблему раздувания KV-кэша — главного препятствия при работе с длинным контекстом и развёртывании LLM на edge-устройствах. Экономия памяти достигается практически без потери качества (например, падение точности на даунстрим-задачах составило всего 0.41% для модели на 1.2B параметров), что открывает новые возможности оптимизации трансформеров.

Для практиков: Объединение проекций Key и Value (конфигурация Q-K=V) — изящное архитектурное решение, которое стоит внедрять при проектировании новых LLM. Сочетая её с GQA или MQA, можно радикально снизить требования к памяти на инференсе, упростив локальный запуск моделей на смартфонах и других устройствах с ограниченными ресурсами.

Выкидывать матрицы тут: https://tg-me.sbs/gonzo_ML_podcasts/3948
👍153🔥3🤔2
Латентный ризонинг такой латентный ризонинг... Как выясняется, нету там параллельного продумывания разных путей, модель всё равно шорткатит.

The Illusion of Superposition? A Principled Analysis of Latent Thinking in Language Models
Michael Rizvi-Martel, Guillaume Rabusseau, Marius Mosbach
Paper: https://arxiv.org/abs/2604.06374
Review: https://arxiviq.substack.com/p/the-illusion-of-superposition-a-principled
Code: N/A
Model: N/A

# TL;DR

Что сделали: Исследователи детально изучили, действительно ли модели со «скрытой цепочкой рассуждений» (которые мыслят не словами, а скрытыми непрерывными математическими векторами) способны исследовать несколько путей решения параллельно. Для этого они должны использовать принцип суперпозиции — способность удерживать несколько альтернативных вариантов одновременно. Анализ внутренних состояний показал, что ни готовые, ни специально дообученные нейросети этого не делают: они либо мгновенно сводят все варианты к какому-то одному, либо находят простые «обходные пути» в обход логических шагов.

Почему это важно: Результаты ставят под сомнение популярную гипотезу разработчиков ИИ нового поколения: будто работа в непрерывном векторном пространстве позволяет нейросетям легко обходить ограничения обычного текста. Работа показывает, что стандартные методы обучения активно подавляют способность к параллельному мышлению, и намечает ориентиры для создания моделей, способных к настоящему планированию.

Шорткатить здесь: https://tg-me.sbs/gonzo_ML_podcasts/3957
1🤔6😁42🔥2💔1🫡1
Мюоныча разбирают. Показали, что для разных слоёв надо использовать разное число итераций Ньютона-Шульца.

(с latex формулами мне пока не удалось добиться рендеринга в телеге)

Spectral Scaling Laws of Muon
Gagik Magakyan, Pablo Parrilo, Asuman Ozdaglar
Paper: https://arxiv.org/abs/2606.04058
Code: https://github.com/KellerJordan/modded-nanogpt
Review: https://arxiviq.substack.com/p/spectral-scaling-laws-of-muon
Model: N/A

# TL;DR

ЧТО сделали: Авторы представили первое систематическое исследование спектральной динамики буферов моментума в оптимизаторе Muon (https://kellerjordan.github.io/posts/muon/) при предобучении больших языковых моделей. Отслеживая квантили сингулярных чисел на разных глубинах в моделях размером от 77M до 2.8B параметров, они обнаружили, что сингулярные числа моментума подчиняются удивительно чётким степенным законам в двойном логарифмическом масштабе относительно размера модели, причём показатели степени (экспоненты) сильно зависят от конкретного слоя.

ПОЧЕМУ это важно: Современные SOTA-архитектуры всё чаще внедряют оптимизатор Muon, который позволяет удвоить вычислительную эффективность по сравнению с классическим AdamW (https://arxiv.org/abs/1711.05101). Однако стандартно аппроксимация Ньютона-Шульца для ортонормирования применяется ко всем слоям одинаково. Эта работа показывает, что однородная конфигурация крайне неоптимальна: в то время как начальные и средние слои масштабируются медленно и могут спокойно использовать дешёвые 5-шаговые итерации на огромных масштабах, финальные слои масштабируются очень агрессивно и неизбежно столкнутся со сбоем ортонормирования, если не выделить им больше шагов.

Для практиков: Исследование предлагает теоретически обоснованный послойный рецепт оптимизации предобучения. Вместо дорогого ортонормирования по всей сети можно оставить дешёвую 5-шаговую схему на большинстве слоёв и точечно применить 10-шаговую итерацию только на самых глубоких слоях. Это защитит модель от падения качества на SOTA-масштабах и сбережёт пропускную способность.

Мюонить тут: https://tg-me.sbs/gonzo_ML_podcasts/3970
18👍5🤯1