Forwarded from что-то на DL-ском
В последнее время, подсела на иглу адаптеров, поэтому сегодня хочу написать про подход AdaMix (2022), идея красивая, перетекла от MoE (MIXTURE-OF-EXPERTS), но со множеством своих доработок из побуждения экономии ресурсов (действительно, если мы имеем дело с PEFT методами, а о чем еще заботиться?)
В чем суть MoE бегло? Из названия в целом понятно. Берем данные, прогоняем через разные разреженные параллельные слои, получаем «экспертов», лучшие результаты которых можем обрабатывать далее. В чем отличие от ансамбля? В том, что данные показываем экспертам не все, а разные части. Соответсвенно, обучаем и то, по какому пути пойдем, при активации конкретной части данных
Получается логично взять вместо обычных слоев адаптивные слои и также выбирать лучшего эксперта, но!! Мы же понимаем, что тут получается какое-то противоречие, вроде PEFT методы направлены на уменьшение количества параметров модели, а тут наоборот «ансамбль адаптеров», что никак не уменьшит количество параметров, а дай бог придет количество в 0
Так какие для этого решения?🙂
1. Стохастическая маршрутизация
У адаптера есть up и down, то есть это отдельный слой, который не совпадает по размерности. Мы можем случайно выбирать из множества экспертов up и из множества down (см вложения). Таким образом, мы не добавляем дополнительных обучаемых параметров на задачу выбора эксперта. Такая стахостическая маршрутищация позволяет получить разные представления задачи.
Но как же понять, какой эксперт использовать на инференсе?❔ Именно это решают следующие пункты
2. Consistency regularization
Изменяем формулу loss с применением дивергенции Кульбака-Лейблера (см вложения). Такой подход позволяет шерить информация между адаптерами
3. Усреднение матриц адаптеров
Используется этот пункт только на инференсе. Позволяет не только смягчить несогласованность регуляризацией, но и уменьшить количество потребляемых FLOPs на инференсе
Такой подход позволяет добиться результатов выше, чем обычные PEFT методы, а также его прелесть в том, что мы можем таким образом работать не только с адаптерами, но и, со всеми любимой LoRA. Ведь по сути, нам нужно только выбрать экспертные слои😮
🖥 код
В чем суть MoE бегло? Из названия в целом понятно. Берем данные, прогоняем через разные разреженные параллельные слои, получаем «экспертов», лучшие результаты которых можем обрабатывать далее. В чем отличие от ансамбля? В том, что данные показываем экспертам не все, а разные части. Соответсвенно, обучаем и то, по какому пути пойдем, при активации конкретной части данных
Получается логично взять вместо обычных слоев адаптивные слои и также выбирать лучшего эксперта, но!! Мы же понимаем, что тут получается какое-то противоречие, вроде PEFT методы направлены на уменьшение количества параметров модели, а тут наоборот «ансамбль адаптеров», что никак не уменьшит количество параметров, а дай бог придет количество в 0
Так какие для этого решения?
1. Стохастическая маршрутизация
У адаптера есть up и down, то есть это отдельный слой, который не совпадает по размерности. Мы можем случайно выбирать из множества экспертов up и из множества down (см вложения). Таким образом, мы не добавляем дополнительных обучаемых параметров на задачу выбора эксперта. Такая стахостическая маршрутищация позволяет получить разные представления задачи.
Но как же понять, какой эксперт использовать на инференсе?
2. Consistency regularization
Изменяем формулу loss с применением дивергенции Кульбака-Лейблера (см вложения). Такой подход позволяет шерить информация между адаптерами
3. Усреднение матриц адаптеров
Используется этот пункт только на инференсе. Позволяет не только смягчить несогласованность регуляризацией, но и уменьшить количество потребляемых FLOPs на инференсе
Такой подход позволяет добиться результатов выше, чем обычные PEFT методы, а также его прелесть в том, что мы можем таким образом работать не только с адаптерами, но и, со всеми любимой LoRA. Ведь по сути, нам нужно только выбрать экспертные слои
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - microsoft/AdaMix: This is the implementation of the paper AdaMix: Mixture-of-Adaptations for Parameter-efficient Model…
This is the implementation of the paper AdaMix: Mixture-of-Adaptations for Parameter-efficient Model Tuning (https://arxiv.org/abs/2205.12410). - GitHub - microsoft/AdaMix: This is the implementat...
👍24⚡7❤6🌚2👏1
Тексты или кеки?
Этот канал всегда существовал где то в пограничной зоне, тут есть кеки которые у последнее время составляют весомую часть контента и dlные вещи, часто не самые хайповые.
В последнее время наблюдаю прям просадку реакций/комкентов на текстах+ часто аудитория не понимает о чем вообще речь. В связи с чем возникает вопрос из начала статьи: тексты или мемы?
Этот канал всегда существовал где то в пограничной зоне, тут есть кеки которые у последнее время составляют весомую часть контента и dlные вещи, часто не самые хайповые.
В последнее время наблюдаю прям просадку реакций/комкентов на текстах+ часто аудитория не понимает о чем вообще речь. В связи с чем возникает вопрос из начала статьи: тексты или мемы?
🌭49🦄32✍14❤5🖕5💅5☃3🤷♂3🔥2🤮2🤬1
#чтивонаночь
Давно обещал разогнать про t2i, поэтому разбил текст на несколько частей.
почитать можно тут
Давно обещал разогнать про t2i, поэтому разбил текст на несколько частей.
почитать можно тут
Teletype
состояние t2i на aug23(1/X)
Дифузионки в их текущем виде существуют с нами около года, примерно в августе 22 года вышла Stable Diffusion 1.* и попала ко мне в руки...
❤🔥59👍11✍6🐳2🍌2🎉1🌭1🆒1
Наконец налили денег кибердеревне, ждем всем нейроселом?
YouTube
КИБЕРДЕРЕВНЯ // ТИЗЕР // СКОРО НА КИНОПОИСКЕ
ПРЕМЬЕРА! Сериал «КИБЕРДЕРЕВНЯ» выходит на Кинопоиске уже этой осенью! С гордостью представляем вам первый тизер-трейлер проекта.
2100 год. Николай счастливо живет с семьей в кибердеревне на Марсе. Он спокойно ведет роботизированное хозяйство, пока на планету…
2100 год. Николай счастливо живет с семьей в кибердеревне на Марсе. Он спокойно ведет роботизированное хозяйство, пока на планету…
❤67❤🔥14👍9👎5🤡3☃2🤮2🔥1
Love. Death. Transformers.
У меня есть мнение, что любой хороший и уважающий себя MLE в 2023м году должен знать, как работает Diffusion в целом и classifier free guidence в частности. Да, может без модификаций, просто ванильную модель, но на пальцах объяснять, что за квадратная матрица…
Please open Telegram to view this post
VIEW IN TELEGRAM
😱39😁20🤡9☃4👎3🫡3🤮2🤓1
Как понять что пишет NLPшник старой закалки: falcon, alpaca, wizardlm как отдельные модели.
бтв жду horny wizard lm
бтв жду horny wizard lm
👍17😁7❤2💊1
Всем привет! В эту субботу в 14:00 МСК будет онлайн-лекция для Better Data Community, от Ильи Гусева, старшего инженера по машинному обучению в Букинге, автора Сайги. Лекция будет про архитектуры, альтерантивные трансформерам, а именно про линейные рекуррентные сети. Внутри будет куча крутых архитектур которые полезно знать MLE инженерам из топовых перцентилей!
🔥51👍3❤🔥2😁2💯1
Тут Dmitry Ustalov на icml провел прикольный воркшоп про RLHF, го читать
Substack
Reinforcement Learning from Human Feedback: When the Math Ain't Enough
Hundreds of brightest people at ICML '23 were in the room at the RLHF tutorial. Speaker asked who wanted to annotate the data. Only five, maybe ten people, raised their hands. That surprised no one.
❤23
Forwarded from ̶с̶а̶м̶̶о̶изолента мёбиуса
Я обновил рейтинг русскоязычных энкодеров предложений github.com/avidale/encodechka, по просьбам трудящихся (и благодаря помощи @dealerAI, нашедшего баг в моих расчетах и настойчиво о нем напоминавшего).
Напомню, что это бенчмарк из 8 задач на эмбеддинги предложений (и еще 2 дополнительные- на эмбеддинги токенов).
В каждой задаче эмбеддинги из модели берутся "как есть" (для BERT-подобных моделей я беру наилучший из двух: эмбеддинг первого токена либо средний эмбеддинг всех токенов), и применяются в качестве фичей для конечной задачи (косинусная близость, либо классификация с помощью логрега или knn).
Дальше я усредняю метрики качества по 8 основным задачам (они разные, но все между 0 и 1), и отмечаю модели, оптимально балансирующие это качество и размер либо скорость.
Что изменилось:
1) Некоторые скоры подвинулись вверх (но не очень сильно, в основном на 1-2%), благодаря исправленной опечатке в формуле усреднения эмбеддингов токенов.
2) Добавилось несколько новых моделей, включая:
- нового лидера Multilingual-E5-large, взявшего сразу 5 медалей в задачах семантической близости, анализа тональности, и классификации интентов;
- эмбеддинги от OpenAI text-embedding-ada-002, которые, несмотря на большую размерность, не особо себя проявили;
- symanto/sn-xlm-roberta-base-snli-mnli-anli-xnli, ожидаемо (и не очень честно) победившую в NLI задаче;
- deepvk/deberta-v1-base, победившую в разряде "детекция токсичности" (aka "одноклассники");
- энкодер от ai-forever/FRED-T5-large, победивший в детекции неполиткорректных текстов.
3) Добавил в лидерборд столбец с размерностью модели, так что теперь например видно, что одинаково перформят 1536-мерные эмбеддинги от OpenAI и 384-мерные из MiniLM-L12.
Если вы хотели бы видеть в бенчмарке какие-нибудь ещё энкодеры – пишите, добавлю!
Напомню, что это бенчмарк из 8 задач на эмбеддинги предложений (и еще 2 дополнительные- на эмбеддинги токенов).
В каждой задаче эмбеддинги из модели берутся "как есть" (для BERT-подобных моделей я беру наилучший из двух: эмбеддинг первого токена либо средний эмбеддинг всех токенов), и применяются в качестве фичей для конечной задачи (косинусная близость, либо классификация с помощью логрега или knn).
Дальше я усредняю метрики качества по 8 основным задачам (они разные, но все между 0 и 1), и отмечаю модели, оптимально балансирующие это качество и размер либо скорость.
Что изменилось:
1) Некоторые скоры подвинулись вверх (но не очень сильно, в основном на 1-2%), благодаря исправленной опечатке в формуле усреднения эмбеддингов токенов.
2) Добавилось несколько новых моделей, включая:
- нового лидера Multilingual-E5-large, взявшего сразу 5 медалей в задачах семантической близости, анализа тональности, и классификации интентов;
- эмбеддинги от OpenAI text-embedding-ada-002, которые, несмотря на большую размерность, не особо себя проявили;
- symanto/sn-xlm-roberta-base-snli-mnli-anli-xnli, ожидаемо (и не очень честно) победившую в NLI задаче;
- deepvk/deberta-v1-base, победившую в разряде "детекция токсичности" (aka "одноклассники");
- энкодер от ai-forever/FRED-T5-large, победивший в детекции неполиткорректных текстов.
3) Добавил в лидерборд столбец с размерностью модели, так что теперь например видно, что одинаково перформят 1536-мерные эмбеддинги от OpenAI и 384-мерные из MiniLM-L12.
Если вы хотели бы видеть в бенчмарке какие-нибудь ещё энкодеры – пишите, добавлю!
🔥24👍7❤1
Forwarded from Derp Learning
This media is not supported in your browser
VIEW IN TELEGRAM
❤82👍4👀3🤮2😢1🖕1