gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.82K views20:50

Forwarded from gonzo_ML_podcasts

👍1

2.55K views20:50

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

👍4❤2

2.49K views20:51

gonzo-обзоры ML статей

Прикольная работа про то, как выжать больше из ограниченных имеющихся данных и неограниченного компьюта. Другая похожая была в прошлом году (https://tg-me.sbs/gonzo_ML/4038). Тоже ансамбли с дистилляцией, но хитрые.

Отдельно прикольная хитрая эвристика, гениальная в своей простоте, это циклическое изменение learning rate и weight decay в противофазе — с высоким lr исследуем, с высоким wd обобщаем. Я раньше этот подход не встречал, но он ведь супер логичен. Видели его где-нибудь?

q0: Primitives for Hyper-Epoch Pretraining
Bishwas Mandal, Shmuel Berman, Akshay Vegesna, Samip Dahal
Paper: https://arxiv.org/abs/2606.03938
Review: https://arxiviq.substack.com/p/q0-primitives-for-hyper-epoch-pretraining
Code: https://github.com/qlabs-eng/slowrun

# TL;DR

ЧТО сделали: Авторы представили q0 — фреймворк для сверхмногоэпохового предобучения, разработанный для оптимизации распределения вычислительных ресурсов в условиях дефицита данных. Вместо многократного обучения одной модели на фиксированном датасете после точки насыщения, q0 использует параллельное циклическое расписание, последовательную дистилляцию (chain distillation) и выученное априорное распределение обобщения (generalization prior) для создания и объединения пула разнообразных, дополняющих друг друга моделей.

ПОЧЕМУ это важно: По мере истощения качественных текстов в интернете, масштабирование базовых моделей упирается в нехватку данных, а обычное многоэпоховое обучение быстро выходит на плато. Рассматривая предобучение как исследование пространства гипотез множеством моделей, а не как бесконечную полировку одной сети, q0 повышает эффективность использования данных при предобучении до 12.9 раз, а на бенчмарках — до 16.0 раз. Это позволяет эффективно обменивать дополнительные вычисления на инференсе на экономию объёма сырых данных.

Для практиков: Если перед вами стоит задача обучить модель на ограниченном или специализированном датасете, но у вас есть свободные GPU-мощности, q0 предлагает готовую стратегию параллельного обучения ансамблей с умным взвешиванием предсказаний, которая обходит фундаментальный тупик "заучивания" данных одной моделью.

Исследовать горизонты тут: https://tg-me.sbs/gonzo_ML_podcasts/3904

arXiv.org

q0: Primitives for Hyper-Epoch Pretraining

Multi-epoch training is becoming the standard now that compute is growing faster than the supply of high-quality text. But pretraining a single model saturates within a few passes, long before the...

👍8🔥2

2.92K views18:44

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

3.03K views18:45

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

3.14K views18:45

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

👍4

3.06K views18:47

gonzo-обзоры ML статей

Извинити. Не знаю автора )

😁101🥴9😐4🤣1

4.09K views23:09

gonzo-обзоры ML статей

Про скейлинг PEFT/LoRA на миллионы пользователей гигантских моделей.

On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters
Mind Lab: Vin Bo, Song Cao, Vic Cao, Andrew Chen, Kaijie Chen, Cleon Cheng, Steven Chiang, Kaixuan Fan et al.
Статья: https://arxiv.org/abs/2606.02437
Ревью: https://arxiviq.substack.com/p/on-the-scaling-of-peft-towards-million
Код: нет
Модель: нет

# TL;DR

Что сделали: Исследователи из Mind Lab разработали комплексный подход, который превращает эффективную донастройку параметров (PEFT, Parameter-Efficient Fine-Tuning — метод, при котором обучают лишь малую часть весов нейросети) из обычного способа сэкономить в полноценную инфраструктуру для персонализации гигантских ИИ-моделей. Они создали математические методы стабилизации сверхкомпактных адаптеров при обучении с подкреплением, спроектировали систему кеширования миллионов таких адаптеров на единой базовой модели с триллионом параметров и доказали, что популяция разных адаптеров демонстрирует рост коллективного разума.

Почему это важно: Обучение и хранение индивидуальной модели-гиганта для каждого пользователя экономически и технически невозможно. Разделив общую «биологическую» базу ИИ и крошечные, постоянно обновляемые персональные адаптеры, мы можем получить глубоко индивидуальных помощников за малую долю стоимости запуска отдельных моделей. Это открывает путь к масштабной симуляции поведения пользователей и созданию коллективных ИИ-систем.

Скейлить тут: https://tg-me.sbs/gonzo_ML_podcasts/3917

arXiv.org

On the Scaling of PEFT: Towards Million Personal Models of...

Parameter-efficient fine-tuning (PEFT) is usually treated as a cheaper alternative to full fine-tuning. We study a broader role: small trainable adapters as persistent local state on top of strong...

❤12👍4👀2

3.21K views11:34

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.76K views11:35

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.63K views11:35

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

👍5❤4👎2🤔1

2.62K views11:36

gonzo-обзоры ML статей

Продолжающиеся поиски бэкпропа в мозге не увенчиваются успехом. Там что-то другое.

Misalignment Between Backpropagation and the Hierarchy of Brain Responses to Images
Joséphine Raugel, Maximilian Seitzer, Marc Szafraniec, Huy V. Vo, Jérémy Rapin, Patrick Labatut, Piotr Bojanowski, Valentin Wyart, Jean-Remi King
Paper: https://arxiv.org/abs/2605.28693
Review: https://arxiviq.substack.com/p/misalignment-between-backpropagation
Code: N/A
Model: N/A

# TL;DR

Что сделали: Исследователи сопоставили сигналы прямой обработки и сигналы обучения (градиенты) современных зрительных нейросетей с высокоточными снимками активности мозга человека (фМРТ и МЭГ). Цель исследования — проверить, использует ли мозг биологический аналог алгоритма обратного распространения ошибки (backpropagation) для обучения.

Почему это важно: Хотя искусственные нейросети и человеческий мозг формируют очень похожие внутренние представления при распознавании изображений, сам процесс обучения у них, как выяснилось, устроен совершенно по-разному. Это указывает на то, что мозг опирается на иные, возможно, куда более эффективные механизмы обучения, которые искусственному интеллекту ещё только предстоит освоить.

Искать бэкпроп здесь: https://tg-me.sbs/gonzo_ML_podcasts/3936

arXiv.org

Misalignment Between Backpropagation and the Hierarchy of Brain...

Backpropagation is the core learning mechanism underlying deep learning. However, whether and how this algorithm is implemented in the brain remains highly debated. In particular, while forward...

❤10🤷‍♂4🔥3😁2👍1🤔1

2.81K views18:57

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.23K views18:58

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.63K views18:58

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.77K views18:58

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

👍5

2.51K views18:59

gonzo-обзоры ML статей

Выкидываем лишние матрицы из трансформеров. Вот, слили K и V.

Вообще мне кажется, что-то такое уже было...

Do Transformers Need Three Projections? Systematic Study of QKV Variants
Ali Kayyam, Anusha Madan Gopal, M Anthony Lewis
Статья: https://arxiv.org/abs/2606.04032
Код: https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections
Ревью: https://arxiviq.substack.com/p/do-transformers-need-three-projections

# TL;DR

ЧТО сделали: Авторы систематически исследовали совместное использование проекций (Projective Sharing) в механизме self-attention, протестировав три типа ограничений: общие query-key, общие key-value и единую проекцию для всех трёх векторов. Объединение проекций Key и Value (оптимальный вариант Q-K=V) позволило отказаться от кэширования отдельного тензора Value, сократив объём KV-кэша на 50%. Важно, что этот подход ортогонален методам совместного использования голов вроде GQA и MQA и отлично дополняет их, позволяя снизить объём KV-кэша на внушительные 96.9%.

ПОЧЕМУ это важно: Эта работа разрушает устоявшееся убеждение, что для self-attention обязательно нужны три полностью независимые проекции. Предложенный математически обоснованный метод эффективно решает проблему раздувания KV-кэша — главного препятствия при работе с длинным контекстом и развёртывании LLM на edge-устройствах. Экономия памяти достигается практически без потери качества (например, падение точности на даунстрим-задачах составило всего 0.41% для модели на 1.2B параметров), что открывает новые возможности оптимизации трансформеров.

Для практиков: Объединение проекций Key и Value (конфигурация Q-K=V) — изящное архитектурное решение, которое стоит внедрять при проектировании новых LLM. Сочетая её с GQA или MQA, можно радикально снизить требования к памяти на инференсе, упростив локальный запуск моделей на смартфонах и других устройствах с ограниченными ресурсами.

Выкидывать матрицы тут: https://tg-me.sbs/gonzo_ML_podcasts/3948

arXiv.org

Do Transformers Need Three Projections? Systematic Study of QKV Variants

Transformers have become the standard solution for various AI tasks, with the query, key, and value (QKV) attention formulation playing a central role. However, the individual contribution of...

👍15❤3🔥3🤔2

2.85K views18:15

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.56K views18:15

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.86K views18:15

gonzo-обзоры ML статей