Forwarded from что-то на DL-ском
А вы знали, что есть способ улучшить генерализацию любой кодовой модели? Как? Применив до этого модель от Microsoft – CodeExecutor
Сложно-сложно, непонятно. Как я могу улучшить результаты своей модели, применив до этого CodeExecutor? А как именно надо применить?🤨
Итак, модель вышла в мае этого года. Основана она на предыдущей модели Microsoft под названием UnixCoder (2022). Коротко – чуваки взяли и поверх предыдущей модели на претрэйне обучали ее на предсказание трассировки по коду. Что за трассировка можно посмотреть во вложении, но по сути это состояние переменных в течении выполнения кода.
Они кстати выложили, как выглядит их датасет, но я нашла только test.😠 А собирали они его следующим образом: брали код из датасета CodeNet и прогоняли в песочнице, которая будет комплитить этот код и выдавать трассировку. Вау, как неожиданно. Ладно, на самом деле это не все, они еще зааугали данные различными операциями (вложения, там список). И получив AST дерево (тоже напомню во вложениях как оно выглядит), они получали элементы к которым они могут применить операции «мутаций»
Еще мне понравилось, что авторы вспомнили древний (ну реально, на фоне всех методов NLP) подход curriculum learning. Если коротко – это обучение с постепенным усложнением функции. Ну то есть начинаем с линейной, постепенно продвигаемся к выпуклой. Соответственно они начинали учить с однострочных кодов и увеличивали постепенно количество строк.
Так вот, как же она может то давать прирост величины результатов любой модели. Перед тем, как использовать кодовые модели просто прогоняем трестировку на данных и скарливаем. Все🧠 . По метрикам у моделей действительно увеличивается понимание кода.
🤗Модель
🖥 Код
Сложно-сложно, непонятно. Как я могу улучшить результаты своей модели, применив до этого CodeExecutor? А как именно надо применить?
Итак, модель вышла в мае этого года. Основана она на предыдущей модели Microsoft под названием UnixCoder (2022). Коротко – чуваки взяли и поверх предыдущей модели на претрэйне обучали ее на предсказание трассировки по коду. Что за трассировка можно посмотреть во вложении, но по сути это состояние переменных в течении выполнения кода.
Они кстати выложили, как выглядит их датасет, но я нашла только test.
Еще мне понравилось, что авторы вспомнили древний (ну реально, на фоне всех методов NLP) подход curriculum learning. Если коротко – это обучение с постепенным усложнением функции. Ну то есть начинаем с линейной, постепенно продвигаемся к выпуклой. Соответственно они начинали учить с однострочных кодов и увеличивали постепенно количество строк.
Так вот, как же она может то давать прирост величины результатов любой модели. Перед тем, как использовать кодовые модели просто прогоняем трестировку на данных и скарливаем. Все
🤗Модель
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤21🔥1
#чтивонаночь по быстрому
Retentive Network: A Successor to Transformer
for Large Language Models
Довольно перспективная архитектура под убийство трансформеров, с одной стороны она совмещает плюсы трансформера: легкий layer paralel, возможность смотреть на все токены и attention. А с другой стороны она обрабатывает все токены за O(N) по памяти, что ОЧЕНЬ мало(у трансформера ~N**2).
При этом еще и инференс идет за O(1).
При обучении на 100B(где то 400гб) текста авторы показывают лучший ppl, и на голову лучшие метрики на валидиционных сетах(SIC!) и разница практически на 10 пунктов(SIC!).
А еще эта версия в два раза меньше памяти потребляет при тех же размерах и в 6 раз быстрее на реальных замерах.
paper
codeбудет тут когда нибудь
Retentive Network: A Successor to Transformer
for Large Language Models
Довольно перспективная архитектура под убийство трансформеров, с одной стороны она совмещает плюсы трансформера: легкий layer paralel, возможность смотреть на все токены и attention. А с другой стороны она обрабатывает все токены за O(N) по памяти, что ОЧЕНЬ мало(у трансформера ~N**2).
При этом еще и инференс идет за O(1).
При обучении на 100B(где то 400гб) текста авторы показывают лучший ppl, и на голову лучшие метрики на валидиционных сетах(SIC!) и разница практически на 10 пунктов(SIC!).
А еще эта версия в два раза меньше памяти потребляет при тех же размерах и в 6 раз быстрее на реальных замерах.
paper
code
❤🔥41🔥13👍3❤1👎1
Преза с ICML от HF и Toloka
Доклад Nathan Lambert из HF и Dmitry Ustalov из Tolokи про то как делать RL+LLM, много крутых заметок от людей кто реально учит RL, например:
- RM имеет на eval 65-70% agreement
-дизайн тасок для толоки под sbs разметку
-псевдо код PPO (ура хоть кто то показал насколько он простой)
презу украл из желтый ии
Доклад Nathan Lambert из HF и Dmitry Ustalov из Tolokи про то как делать RL+LLM, много крутых заметок от людей кто реально учит RL, например:
- RM имеет на eval 65-70% agreement
-дизайн тасок для толоки под sbs разметку
-псевдо код PPO (ура хоть кто то показал насколько он простой)
презу украл из желтый ии
👍22👎2🥴2☃1❤1
Forwarded from Ilya Gusev
Привет!
Появились финальные результаты по Сайге на новых моделях.
Сами новые модели:
saiga2_7b_lora на LLaMA-2 7B, и её ggml квантованные версии
saiga2_13b_lora на LLaMA-2 13B, и её ggml квантованные версии
gigasaiga_lora на ruGPT-3.5-13B
Side-by-side сравнения (победы левой - ничьи - победы правой):
- gigasaiga vs gpt3.5-turbo: 41-4-131
- saiga2_7b vs gpt3.5-turbo: 53-7-116
- saiga7b vs gpt3.5-turbo: 58-6-112
- saiga13b vs gpt3.5-turbo: 63-10-103
- saiga30b vs gpt3.5-turbo: 67-6-103
- saiga2_13b vs gpt3.5-turbo: 70-11-95
- saiga7b vs saiga2_7b: 78-8-90
- saiga13b vs saiga2_13b: 95-2-79
- saiga13b vs gigasaiga: 112-11-53
Сырую разметку можно найти здесь: rulm_human_preferences
А на картинке - результаты на RussianSuperGLUE.
В целом ruGPT-3.5-13B как будто бы хуже Лламы, как первой, так и второй, и на RSG, и в SbS. Для меня это довольно удивительный результат, учитывая количество русского в обучении Лламы.
А Ллама-2 не сильно лучше Лламы-1 в попарном сравнении, но явно закрывает какие-то ниши (математика и программирование?), в которых первая версия была совсем плоха. Плюс вторая версия гораздо лучше во всём, что связано с ответами на вопросы по тексту.
Появились финальные результаты по Сайге на новых моделях.
Сами новые модели:
saiga2_7b_lora на LLaMA-2 7B, и её ggml квантованные версии
saiga2_13b_lora на LLaMA-2 13B, и её ggml квантованные версии
gigasaiga_lora на ruGPT-3.5-13B
Side-by-side сравнения (победы левой - ничьи - победы правой):
- gigasaiga vs gpt3.5-turbo: 41-4-131
- saiga2_7b vs gpt3.5-turbo: 53-7-116
- saiga7b vs gpt3.5-turbo: 58-6-112
- saiga13b vs gpt3.5-turbo: 63-10-103
- saiga30b vs gpt3.5-turbo: 67-6-103
- saiga2_13b vs gpt3.5-turbo: 70-11-95
- saiga7b vs saiga2_7b: 78-8-90
- saiga13b vs saiga2_13b: 95-2-79
- saiga13b vs gigasaiga: 112-11-53
Сырую разметку можно найти здесь: rulm_human_preferences
А на картинке - результаты на RussianSuperGLUE.
В целом ruGPT-3.5-13B как будто бы хуже Лламы, как первой, так и второй, и на RSG, и в SbS. Для меня это довольно удивительный результат, учитывая количество русского в обучении Лламы.
А Ллама-2 не сильно лучше Лламы-1 в попарном сравнении, но явно закрывает какие-то ниши (математика и программирование?), в которых первая версия была совсем плоха. Плюс вторая версия гораздо лучше во всём, что связано с ответами на вопросы по тексту.
❤22🍾10👎4🤮3😢1
#чтивонаночь по быстрому
Тут Carperai выпустили свою версию LLAMA 65B + COT, обученная на:
FLAN, ORCA(большой публичный сет инструкций ).
При этом это полный FineTune а не LORA, что вообще довольно нестандаратное решение, к тому же еще и веса выложены в общий доступ.
По метрикам выглядит довольно интересно - на бенчмарках оно неплохо подросло, лаже доросло до gpt3.5.
Тыкаться можно тут:
FreeWilly1
FreeWilly2
Тут Carperai выпустили свою версию LLAMA 65B + COT, обученная на:
FLAN, ORCA(большой публичный сет инструкций ).
При этом это полный FineTune а не LORA, что вообще довольно нестандаратное решение, к тому же еще и веса выложены в общий доступ.
По метрикам выглядит довольно интересно - на бенчмарках оно неплохо подросло, лаже доросло до gpt3.5.
Тыкаться можно тут:
FreeWilly1
FreeWilly2
🔥10❤2
#чтивонаночь по быстрому 2
WEB GPT FOR ALL?
Есть такая старая идея: давайте дадим LMке доступ в интернет, чтобы она сама ходила, тыкала кнопочки и находила то что нужно из разной информации.
Например: тыкнуться в реддит, найти ссылку на репу на гите, найти файл и отдать информацию оттуда.
Собственно можно отправить запрос:
Пока работает только с openaai GPT, но думаю комьюнити быстро соберет данные и обучит llama/flan.
blog
code
WEB GPT FOR ALL?
Есть такая старая идея: давайте дадим LMке доступ в интернет, чтобы она сама ходила, тыкала кнопочки и находила то что нужно из разной информации.
Например: тыкнуться в реддит, найти ссылку на репу на гите, найти файл и отдать информацию оттуда.
Собственно можно отправить запрос:
Tell me the name of the customer who, после чего LM сама напишет SQL запрос в правильную db, сама заберет результаты и вернется с ответом!
has the most cancellations in the history
Пока работает только с openaai GPT, но думаю комьюнити быстро соберет данные и обучит llama/flan.
blog
code
⚡22☃1❤1🔥1
👀20👍7☃1❤1
Forwarded from Roman Buzko
Бывшие криптаны, которые пивотнулись в AI экспертов, читают новость про открытие сверхпроводников.
😁49🤔15❤2🔥2🍾1
Тут челы выложили diffusion модель с Img2img которая превратит вас в барби!
Barbenheimer идет в настуление, развлекайтесь
Тыкаться тут:
bairbie.me
Barbenheimer идет в настуление, развлекайтесь
Тыкаться тут:
bairbie.me
🥴32👍7👎5⚡4❤🔥2
Знаешь почему в Дубае так много трейдерских контор?
Потому что форточки не открываются?
Ну да, шутка в том что душнилам нельзя предложить открыть форточку
Потому что форточки не открываются?
Ну да, шутка в том что душнилам нельзя предложить открыть форточку
😁33🤯2
Forwarded from Psy Eyes (Andrey Bezryadin)
This media is not supported in your browser
VIEW IN TELEGRAM
Pika Labs открылся для всех!
Генерить видео можно в ветках #generate как просто по тексту, так на основе картинки. Чтобы вкинуть изображение, нажимаете рядом с вбитым промтом на +1, затем жмёте на Upload и добавляете его.
Пример промта:
Чтобы быстро генерить по тому же промту жмите значок "Повторить". Генерации ограничены 10 штуками в 5 минут.
Дискорд
Сайт
Генерить видео можно в ветках #generate как просто по тексту, так на основе картинки. Чтобы вкинуть изображение, нажимаете рядом с вбитым промтом на +1, затем жмёте на Upload и добавляете его.
Пример промта:
/create prompt:a cat is walking in the forest, sunset, 4K -neg "bad anatomy, lowres" -ar 1:1
Какие параметры у промтов:-gs xx (guidance scale, чем выше чифра, тем ближе визуал к промту)-neg "xxx" (негативный промт, задаём чего не должно быть в кадре)-hide (скрыть промт)-ar xx:xx (соотношение сторон, 16:9, 9:16, 1:1, 4:5)-seed xxx (ставим одно число для консистентной генерации, чтобы увидеть сид надо скачать видео он в названии файла)-motion xx (насколько подвижной нужна картинка, задаётся числами 0, 1, или 2)Чтобы быстро генерить по тому же промту жмите значок "Повторить". Генерации ограничены 10 штуками в 5 минут.
Дискорд
Сайт
❤19👍3🔥2
FLAN FRED
Несколько месяцев назад я вел в вышке проектную деетельность у студентов, в рамках нее шли эксперементы по претрейну маленьких русских моделей, а так же важный эксперемент который не успели закончить, а руки добить дошли только сейчас.
FLAN - это один из лучших датасетов для COT, механики позволяющей учить модель рассуждать, да это не улучшает ZS способности для маленьких моделей, но при этом претрейн становиться лучше и модель можно переиспользовать для разных задач.
Так же спасибо ребятам из SiberianSoft(Денис) за опыт дообучения fred и полезные советы!
Формально, модель лучше оригинала и Siberian Fred на xnli_ru, xwinograd_ru.
Но фактически я не смотрел как она работает на downstream fine-tune, возможно для специфичных задач она не подойдёт, но для DocQA и подобных она возможно будет лучше соседей.
Сравнение с saiga *B не имеет смысла, ллама как базовая модель сильно лучше русскиязычных на генеративных задачах, так что если вам нужно решать именно диалогово генеративную задачу - saiga *B ваш лучший друг.
Модель
датасет(машинный перевод, довольно грязный)
Коллектив причастный к модели:
Den4ikAI, Pavel Ilin, Ксения Золина, Илья Кулешов, Егор Кокуш, админ
Несколько месяцев назад я вел в вышке проектную деетельность у студентов, в рамках нее шли эксперементы по претрейну маленьких русских моделей, а так же важный эксперемент который не успели закончить, а руки добить дошли только сейчас.
FLAN - это один из лучших датасетов для COT, механики позволяющей учить модель рассуждать, да это не улучшает ZS способности для маленьких моделей, но при этом претрейн становиться лучше и модель можно переиспользовать для разных задач.
Так же спасибо ребятам из SiberianSoft(Денис) за опыт дообучения fred и полезные советы!
Формально, модель лучше оригинала и Siberian Fred на xnli_ru, xwinograd_ru.
Но фактически я не смотрел как она работает на downstream fine-tune, возможно для специфичных задач она не подойдёт, но для DocQA и подобных она возможно будет лучше соседей.
Сравнение с saiga *B не имеет смысла, ллама как базовая модель сильно лучше русскиязычных на генеративных задачах, так что если вам нужно решать именно диалогово генеративную задачу - saiga *B ваш лучший друг.
Модель
датасет(машинный перевод, довольно грязный)
Коллектив причастный к модели:
Den4ikAI, Pavel Ilin, Ксения Золина, Илья Кулешов, Егор Кокуш, админ
🔥28🤡5❤2😁2🥱2👍1
Тут iris Aleksandra в Твиттере не хотелa смотреть кин дза дза и практически на кухне и сварилa супер индуктивный металл LK99
Btw I believe in catgirl supremacy, этож реально киберпанк, анонка из твиттера с аниме на аватарке такая: ща все будет и плавит супер проводник
Thread
Btw I believe in catgirl supremacy, этож реально киберпанк, анонка из твиттера с аниме на аватарке такая: ща все будет и плавит супер проводник
Thread
😁46🔥10👎3🤮3🤡1
#чтивонаночь по быстрому
ToolLLM
Помните в феврале этого месяца крайне быстро поднялся, а затем угас хайп tool LM?
Ну типа мы не просто LM теперь, а комбайн который может тыкаться в любое api, использовать оттуда информацию, а еще можно кинуть LMке какое то api и она сама его как то сожрет.
Авторы зарлизили код и датасет для создания подобных схем(не трогайте, оно все очень медленное и тяжелое).
По результатам вышло неплохо - llama таким образом обгоняет GPT3.5-4 на их же бенчмарке(НЕОЖИДАННО ) + добавили прикольный multi tool chain(когда модель последовательно ходит в разные инструменты)
код
ToolLLM
Помните в феврале этого месяца крайне быстро поднялся, а затем угас хайп tool LM?
Ну типа мы не просто LM теперь, а комбайн который может тыкаться в любое api, использовать оттуда информацию, а еще можно кинуть LMке какое то api и она сама его как то сожрет.
Авторы зарлизили код и датасет для создания подобных схем(не трогайте, оно все очень медленное и тяжелое).
По результатам вышло неплохо - llama таким образом обгоняет GPT3.5-4 на их же бенчмарке(
код
🌭19❤4👍4