Forwarded from Psy Eyes (Andrey Bezryadin)
This media is not supported in your browser
VIEW IN TELEGRAM
Pika Labs открылся для всех!
Генерить видео можно в ветках #generate как просто по тексту, так на основе картинки. Чтобы вкинуть изображение, нажимаете рядом с вбитым промтом на +1, затем жмёте на Upload и добавляете его.
Пример промта:
Чтобы быстро генерить по тому же промту жмите значок "Повторить". Генерации ограничены 10 штуками в 5 минут.
Дискорд
Сайт
Генерить видео можно в ветках #generate как просто по тексту, так на основе картинки. Чтобы вкинуть изображение, нажимаете рядом с вбитым промтом на +1, затем жмёте на Upload и добавляете его.
Пример промта:
/create prompt:a cat is walking in the forest, sunset, 4K -neg "bad anatomy, lowres" -ar 1:1
Какие параметры у промтов:-gs xx (guidance scale, чем выше чифра, тем ближе визуал к промту)-neg "xxx" (негативный промт, задаём чего не должно быть в кадре)-hide (скрыть промт)-ar xx:xx (соотношение сторон, 16:9, 9:16, 1:1, 4:5)-seed xxx (ставим одно число для консистентной генерации, чтобы увидеть сид надо скачать видео он в названии файла)-motion xx (насколько подвижной нужна картинка, задаётся числами 0, 1, или 2)Чтобы быстро генерить по тому же промту жмите значок "Повторить". Генерации ограничены 10 штуками в 5 минут.
Дискорд
Сайт
❤19👍3🔥2
FLAN FRED
Несколько месяцев назад я вел в вышке проектную деетельность у студентов, в рамках нее шли эксперементы по претрейну маленьких русских моделей, а так же важный эксперемент который не успели закончить, а руки добить дошли только сейчас.
FLAN - это один из лучших датасетов для COT, механики позволяющей учить модель рассуждать, да это не улучшает ZS способности для маленьких моделей, но при этом претрейн становиться лучше и модель можно переиспользовать для разных задач.
Так же спасибо ребятам из SiberianSoft(Денис) за опыт дообучения fred и полезные советы!
Формально, модель лучше оригинала и Siberian Fred на xnli_ru, xwinograd_ru.
Но фактически я не смотрел как она работает на downstream fine-tune, возможно для специфичных задач она не подойдёт, но для DocQA и подобных она возможно будет лучше соседей.
Сравнение с saiga *B не имеет смысла, ллама как базовая модель сильно лучше русскиязычных на генеративных задачах, так что если вам нужно решать именно диалогово генеративную задачу - saiga *B ваш лучший друг.
Модель
датасет(машинный перевод, довольно грязный)
Коллектив причастный к модели:
Den4ikAI, Pavel Ilin, Ксения Золина, Илья Кулешов, Егор Кокуш, админ
Несколько месяцев назад я вел в вышке проектную деетельность у студентов, в рамках нее шли эксперементы по претрейну маленьких русских моделей, а так же важный эксперемент который не успели закончить, а руки добить дошли только сейчас.
FLAN - это один из лучших датасетов для COT, механики позволяющей учить модель рассуждать, да это не улучшает ZS способности для маленьких моделей, но при этом претрейн становиться лучше и модель можно переиспользовать для разных задач.
Так же спасибо ребятам из SiberianSoft(Денис) за опыт дообучения fred и полезные советы!
Формально, модель лучше оригинала и Siberian Fred на xnli_ru, xwinograd_ru.
Но фактически я не смотрел как она работает на downstream fine-tune, возможно для специфичных задач она не подойдёт, но для DocQA и подобных она возможно будет лучше соседей.
Сравнение с saiga *B не имеет смысла, ллама как базовая модель сильно лучше русскиязычных на генеративных задачах, так что если вам нужно решать именно диалогово генеративную задачу - saiga *B ваш лучший друг.
Модель
датасет(машинный перевод, довольно грязный)
Коллектив причастный к модели:
Den4ikAI, Pavel Ilin, Ксения Золина, Илья Кулешов, Егор Кокуш, админ
🔥28🤡5❤2😁2🥱2👍1
Тут iris Aleksandra в Твиттере не хотелa смотреть кин дза дза и практически на кухне и сварилa супер индуктивный металл LK99
Btw I believe in catgirl supremacy, этож реально киберпанк, анонка из твиттера с аниме на аватарке такая: ща все будет и плавит супер проводник
Thread
Btw I believe in catgirl supremacy, этож реально киберпанк, анонка из твиттера с аниме на аватарке такая: ща все будет и плавит супер проводник
Thread
😁46🔥10👎3🤮3🤡1
#чтивонаночь по быстрому
ToolLLM
Помните в феврале этого месяца крайне быстро поднялся, а затем угас хайп tool LM?
Ну типа мы не просто LM теперь, а комбайн который может тыкаться в любое api, использовать оттуда информацию, а еще можно кинуть LMке какое то api и она сама его как то сожрет.
Авторы зарлизили код и датасет для создания подобных схем(не трогайте, оно все очень медленное и тяжелое).
По результатам вышло неплохо - llama таким образом обгоняет GPT3.5-4 на их же бенчмарке(НЕОЖИДАННО ) + добавили прикольный multi tool chain(когда модель последовательно ходит в разные инструменты)
код
ToolLLM
Помните в феврале этого месяца крайне быстро поднялся, а затем угас хайп tool LM?
Ну типа мы не просто LM теперь, а комбайн который может тыкаться в любое api, использовать оттуда информацию, а еще можно кинуть LMке какое то api и она сама его как то сожрет.
Авторы зарлизили код и датасет для создания подобных схем(не трогайте, оно все очень медленное и тяжелое).
По результатам вышло неплохо - llama таким образом обгоняет GPT3.5-4 на их же бенчмарке(
код
🌭19❤4👍4
This media is not supported in your browser
VIEW IN TELEGRAM
Авторы оригинальной статьи о LK99 выложили видео с леветирующим сверхпроводником
🤡35🔥25😁6🤔5👍4
Love. Death. Transformers.
Авторы оригинальной статьи о LK99 выложили видео с леветирующим сверхпроводником
пришел папочка из мгу, сказал взять супер проводник и жидкий азот, едем куда то за город, не знаю что, но кажется началось
😁120🤡2🐳1
У меня есть мнение, что любой хороший и уважающий себя MLE в 2023м году должен знать, как работает Diffusion в целом и classifier free guidence в частности. Да, может без модификаций, просто ванильную модель, но на пальцах объяснять, что за квадратная матрица, как в целом учится и какие задачи решает - должен. Речь не про average ML enjoyer, а про уважающего себя хорошего MLE из топовых перцентилей распределения.
Согласны ли вы с этим?
Согласны ли вы с этим?
😁91🤣37👍17👎4🗿3❤1❤🔥1🕊1🥴1
Мой батя ебашит вообще адовый rlhf
Ну такой вот примерно рецепт усредненный, потому что вариаций масса. Берется llama, но адаптеры в нее не вставляют, вставлять адапетры - это не про моего батю. Он берет эту llama, вываливает ее на 3090 и начинает учить. Добавляет в него огромное количество инструкций, промптов, chain of thoughts и negative prompts! для сходимости, lamb с LR=228e6 сверху. Все это учиться до None. Потом снимается с картв и валидируется на gpt4. Потом батя выкладывает и щедро полив постами в Твиттере начинает хайповать. При этом инферит на iPhone шкрябая по нему. Инферит и приговаривает полушепотом ух бля. При этом у него на лбу аж пот выступает. Любезно мне иногда предлагает, но я отказываюсь. Надо ли говорить о том какой дичайший хайп потом? Вонища такая, что обои от стен отклеиваются.
Ну такой вот примерно рецепт усредненный, потому что вариаций масса. Берется llama, но адаптеры в нее не вставляют, вставлять адапетры - это не про моего батю. Он берет эту llama, вываливает ее на 3090 и начинает учить. Добавляет в него огромное количество инструкций, промптов, chain of thoughts и negative prompts! для сходимости, lamb с LR=228e6 сверху. Все это учиться до None. Потом снимается с картв и валидируется на gpt4. Потом батя выкладывает и щедро полив постами в Твиттере начинает хайповать. При этом инферит на iPhone шкрябая по нему. Инферит и приговаривает полушепотом ух бля. При этом у него на лбу аж пот выступает. Любезно мне иногда предлагает, но я отказываюсь. Надо ли говорить о том какой дичайший хайп потом? Вонища такая, что обои от стен отклеиваются.
😁139👍17💔6❤5🥴5🤡4👏2🔥1💯1💊1
Forwarded from что-то на DL-ском
В последнее время, подсела на иглу адаптеров, поэтому сегодня хочу написать про подход AdaMix (2022), идея красивая, перетекла от MoE (MIXTURE-OF-EXPERTS), но со множеством своих доработок из побуждения экономии ресурсов (действительно, если мы имеем дело с PEFT методами, а о чем еще заботиться?)
В чем суть MoE бегло? Из названия в целом понятно. Берем данные, прогоняем через разные разреженные параллельные слои, получаем «экспертов», лучшие результаты которых можем обрабатывать далее. В чем отличие от ансамбля? В том, что данные показываем экспертам не все, а разные части. Соответсвенно, обучаем и то, по какому пути пойдем, при активации конкретной части данных
Получается логично взять вместо обычных слоев адаптивные слои и также выбирать лучшего эксперта, но!! Мы же понимаем, что тут получается какое-то противоречие, вроде PEFT методы направлены на уменьшение количества параметров модели, а тут наоборот «ансамбль адаптеров», что никак не уменьшит количество параметров, а дай бог придет количество в 0
Так какие для этого решения?🙂
1. Стохастическая маршрутизация
У адаптера есть up и down, то есть это отдельный слой, который не совпадает по размерности. Мы можем случайно выбирать из множества экспертов up и из множества down (см вложения). Таким образом, мы не добавляем дополнительных обучаемых параметров на задачу выбора эксперта. Такая стахостическая маршрутищация позволяет получить разные представления задачи.
Но как же понять, какой эксперт использовать на инференсе?❔ Именно это решают следующие пункты
2. Consistency regularization
Изменяем формулу loss с применением дивергенции Кульбака-Лейблера (см вложения). Такой подход позволяет шерить информация между адаптерами
3. Усреднение матриц адаптеров
Используется этот пункт только на инференсе. Позволяет не только смягчить несогласованность регуляризацией, но и уменьшить количество потребляемых FLOPs на инференсе
Такой подход позволяет добиться результатов выше, чем обычные PEFT методы, а также его прелесть в том, что мы можем таким образом работать не только с адаптерами, но и, со всеми любимой LoRA. Ведь по сути, нам нужно только выбрать экспертные слои😮
🖥 код
В чем суть MoE бегло? Из названия в целом понятно. Берем данные, прогоняем через разные разреженные параллельные слои, получаем «экспертов», лучшие результаты которых можем обрабатывать далее. В чем отличие от ансамбля? В том, что данные показываем экспертам не все, а разные части. Соответсвенно, обучаем и то, по какому пути пойдем, при активации конкретной части данных
Получается логично взять вместо обычных слоев адаптивные слои и также выбирать лучшего эксперта, но!! Мы же понимаем, что тут получается какое-то противоречие, вроде PEFT методы направлены на уменьшение количества параметров модели, а тут наоборот «ансамбль адаптеров», что никак не уменьшит количество параметров, а дай бог придет количество в 0
Так какие для этого решения?
1. Стохастическая маршрутизация
У адаптера есть up и down, то есть это отдельный слой, который не совпадает по размерности. Мы можем случайно выбирать из множества экспертов up и из множества down (см вложения). Таким образом, мы не добавляем дополнительных обучаемых параметров на задачу выбора эксперта. Такая стахостическая маршрутищация позволяет получить разные представления задачи.
Но как же понять, какой эксперт использовать на инференсе?
2. Consistency regularization
Изменяем формулу loss с применением дивергенции Кульбака-Лейблера (см вложения). Такой подход позволяет шерить информация между адаптерами
3. Усреднение матриц адаптеров
Используется этот пункт только на инференсе. Позволяет не только смягчить несогласованность регуляризацией, но и уменьшить количество потребляемых FLOPs на инференсе
Такой подход позволяет добиться результатов выше, чем обычные PEFT методы, а также его прелесть в том, что мы можем таким образом работать не только с адаптерами, но и, со всеми любимой LoRA. Ведь по сути, нам нужно только выбрать экспертные слои
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - microsoft/AdaMix: This is the implementation of the paper AdaMix: Mixture-of-Adaptations for Parameter-efficient Model…
This is the implementation of the paper AdaMix: Mixture-of-Adaptations for Parameter-efficient Model Tuning (https://arxiv.org/abs/2205.12410). - GitHub - microsoft/AdaMix: This is the implementat...
👍24⚡7❤6🌚2👏1
Тексты или кеки?
Этот канал всегда существовал где то в пограничной зоне, тут есть кеки которые у последнее время составляют весомую часть контента и dlные вещи, часто не самые хайповые.
В последнее время наблюдаю прям просадку реакций/комкентов на текстах+ часто аудитория не понимает о чем вообще речь. В связи с чем возникает вопрос из начала статьи: тексты или мемы?
Этот канал всегда существовал где то в пограничной зоне, тут есть кеки которые у последнее время составляют весомую часть контента и dlные вещи, часто не самые хайповые.
В последнее время наблюдаю прям просадку реакций/комкентов на текстах+ часто аудитория не понимает о чем вообще речь. В связи с чем возникает вопрос из начала статьи: тексты или мемы?
🌭49🦄32✍14❤5🖕5💅5☃3🤷♂3🔥2🤮2🤬1