Love. Death. Transformers.
24.5K subscribers
4.57K photos
522 videos
81 files
2.98K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
А вы знали, что есть способ улучшить генерализацию любой кодовой модели? Как? Применив до этого модель от Microsoft – CodeExecutor

Сложно-сложно, непонятно. Как я могу улучшить результаты своей модели, применив до этого CodeExecutor? А как именно надо применить?🤨

Итак, модель вышла в мае этого года. Основана она на предыдущей модели Microsoft под названием UnixCoder (2022). Коротко – чуваки взяли и поверх предыдущей модели на претрэйне обучали ее на предсказание трассировки по коду. Что за трассировка можно посмотреть во вложении, но по сути это состояние переменных в течении выполнения кода.

Они кстати выложили, как выглядит их датасет, но я нашла только test. 😠 А собирали они его следующим образом: брали код из датасета CodeNet и прогоняли в песочнице, которая будет комплитить этот код и выдавать трассировку. Вау, как неожиданно. Ладно, на самом деле это не все, они еще зааугали данные различными операциями (вложения, там список). И получив AST дерево (тоже напомню во вложениях как оно выглядит), они получали элементы к которым они могут применить операции «мутаций»

Еще мне понравилось, что авторы вспомнили древний (ну реально, на фоне всех методов NLP) подход curriculum learning. Если коротко – это обучение с постепенным усложнением функции. Ну то есть начинаем с линейной, постепенно продвигаемся к выпуклой. Соответственно они начинали учить с однострочных кодов и увеличивали постепенно количество строк.

Так вот, как же она может то давать прирост величины результатов любой модели. Перед тем, как использовать кодовые модели просто прогоняем трестировку на данных и скарливаем. Все🧠. По метрикам у моделей действительно увеличивается понимание кода.

🤗Модель
🖥Код
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
21🔥1
#чтивонаночь по быстрому
Retentive Network: A Successor to Transformer
for Large Language Model
s

Довольно перспективная архитектура под убийство трансформеров, с одной стороны она совмещает плюсы трансформера: легкий layer paralel, возможность смотреть на все токены и attention. А с другой стороны она обрабатывает все токены за O(N) по памяти, что ОЧЕНЬ мало(у трансформера ~N**2).
При этом еще и инференс идет за O(1).
При обучении на 100B(где то 400гб) текста авторы показывают лучший ppl, и на голову лучшие метрики на валидиционных сетах(SIC!) и разница практически на 10 пунктов(SIC!).

А еще эта версия в два раза меньше памяти потребляет при тех же размерах и в 6 раз быстрее на реальных замерах.

paper
code будет тут когда нибудь
❤‍🔥41🔥13👍31👎1
Преза с ICML от HF и Toloka
Доклад Nathan Lambert из HF и Dmitry Ustalov из Tolokи про то как делать RL+LLM, много крутых заметок от людей кто реально учит RL, например:
- RM имеет на eval 65-70% agreement
-дизайн тасок для толоки под sbs разметку
-псевдо код PPO (ура хоть кто то показал насколько он простой)

презу украл из желтый ии
👍22👎2🥴211
Forwarded from Ilya Gusev
Привет!

Появились финальные результаты по Сайге на новых моделях.

Сами новые модели:
saiga2_7b_lora на LLaMA-2 7B, и её ggml квантованные версии
saiga2_13b_lora на LLaMA-2 13B, и её ggml квантованные версии
gigasaiga_lora на ruGPT-3.5-13B

Side-by-side сравнения (победы левой - ничьи - победы правой):

- gigasaiga vs gpt3.5-turbo: 41-4-131
- saiga2_7b vs gpt3.5-turbo: 53-7-116
- saiga7b vs gpt3.5-turbo: 58-6-112
- saiga13b vs gpt3.5-turbo: 63-10-103
- saiga30b vs gpt3.5-turbo: 67-6-103
- saiga2_13b vs gpt3.5-turbo: 70-11-95

- saiga7b vs saiga2_7b: 78-8-90
- saiga13b vs saiga2_13b: 95-2-79
- saiga13b vs gigasaiga: 112-11-53

Сырую разметку можно найти здесь: rulm_human_preferences

А на картинке - результаты на RussianSuperGLUE.

В целом ruGPT-3.5-13B как будто бы хуже Лламы, как первой, так и второй, и на RSG, и в SbS. Для меня это довольно удивительный результат, учитывая количество русского в обучении Лламы.

А Ллама-2 не сильно лучше Лламы-1 в попарном сравнении, но явно закрывает какие-то ниши (математика и программирование?), в которых первая версия была совсем плоха. Плюс вторая версия гораздо лучше во всём, что связано с ответами на вопросы по тексту.
22🍾10👎4🤮3😢1
#чтивонаночь по быстрому
Тут Carperai выпустили свою версию LLAMA 65B + COT, обученная на:
FLAN, ORCA(большой публичный сет инструкций ).

При этом это полный FineTune а не LORA, что вообще довольно нестандаратное решение, к тому же еще и веса выложены в общий доступ.

По метрикам выглядит довольно интересно - на бенчмарках оно неплохо подросло, лаже доросло до gpt3.5.

Тыкаться можно тут:
FreeWilly1
FreeWilly2
🔥102
#чтивонаночь по быстрому 2

WEB GPT FOR ALL?
Есть такая старая идея: давайте дадим LMке доступ в интернет, чтобы она сама ходила, тыкала кнопочки и находила то что нужно из разной информации.

Например: тыкнуться в реддит, найти ссылку на репу на гите, найти файл и отдать информацию оттуда.
Собственно можно отправить запрос:
Tell me the name of the customer who
has the most cancellations in the history
, после чего LM сама напишет SQL запрос в правильную db, сама заберет результаты и вернется с ответом!

Пока работает только с openaai GPT, но думаю комьюнити быстро соберет данные и обучит llama/flan.

blog
code
2211🔥1
Подписчики запили прикольный суммарезатор статей с arxiv, го тестить!

synthical.com
👀20👍711
Forwarded from Roman Buzko
Бывшие криптаны, которые пивотнулись в AI экспертов, читают новость про открытие сверхпроводников.
😁49🤔152🔥2🍾1
Тут челы выложили diffusion модель с Img2img которая превратит вас в барби!
Barbenheimer идет в настуление, развлекайтесь

Тыкаться тут:
bairbie.me
🥴32👍7👎54❤‍🔥2
Знаешь почему в Дубае так много трейдерских контор?
Потому что форточки не открываются?
Ну да, шутка в том что душнилам нельзя предложить открыть форточку
😁33🤯2
Forwarded from Psy Eyes (Andrey Bezryadin)
This media is not supported in your browser
VIEW IN TELEGRAM
Pika Labs открылся для всех!

Генерить видео можно в ветках #generate как просто по тексту, так на основе картинки. Чтобы вкинуть изображение, нажимаете рядом с вбитым промтом на +1, затем жмёте на Upload и добавляете его.

Пример промта: /create prompt:a cat is walking in the forest, sunset, 4K -neg "bad anatomy, lowres" -ar 1:1

Какие параметры у промтов:
-gs xx (guidance scale, чем выше чифра, тем ближе визуал к промту)
-neg "xxx" (негативный промт, задаём чего не должно быть в кадре)
-hide (скрыть промт)
-ar xx:xx (соотношение сторон, 16:9, 9:16, 1:1, 4:5)
-seed xxx (ставим одно число для консистентной генерации, чтобы увидеть сид надо скачать видео он в названии файла)
-motion xx (насколько подвижной нужна картинка, задаётся числами 0, 1, или 2)

Чтобы быстро генерить по тому же промту жмите значок "Повторить". Генерации ограничены 10 штуками в 5 минут.

Дискорд
Сайт
19👍3🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Gpt4 in June be like:
😁5819🥴3👎2🥱1😐1
FLAN FRED
Несколько месяцев назад я вел в вышке проектную деетельность у студентов, в рамках нее шли эксперементы по претрейну маленьких русских моделей, а так же важный эксперемент который не успели закончить, а руки добить дошли только сейчас.

FLAN - это один из лучших датасетов для COT, механики позволяющей учить модель рассуждать, да это не улучшает ZS способности для маленьких моделей, но при этом претрейн становиться лучше и модель можно переиспользовать для разных задач.

Так же спасибо ребятам из SiberianSoft(Денис) за опыт дообучения fred и полезные советы!

Формально, модель лучше оригинала и Siberian Fred на xnli_ru, xwinograd_ru.
Но фактически я не смотрел как она работает на downstream fine-tune, возможно для специфичных задач она не подойдёт, но для DocQA и подобных она возможно будет лучше соседей.


Сравнение с saiga *B не имеет смысла, ллама как базовая модель сильно лучше русскиязычных на генеративных задачах, так что если вам нужно решать именно диалогово генеративную задачу - saiga *B ваш лучший друг.

Модель
датасет(машинный перевод, довольно грязный)

Коллектив причастный к модели:
Den4ikAI, Pavel Ilin, Ксения Золина, Илья Кулешов, Егор Кокуш, админ
🔥28🤡52😁2🥱2👍1
🔥58🤡10😍6👍31🫡1
Flash attention in a nutshell
😁143127💯3
Тут iris Aleksandra в Твиттере не хотелa смотреть кин дза дза и практически на кухне и сварилa супер индуктивный металл LK99

Btw I believe in catgirl supremacy, этож реально киберпанк, анонка из твиттера с аниме на аватарке такая: ща все будет и плавит супер проводник


Thread
😁46🔥10👎3🤮3🤡1
ChatGPT is dead.

Teenagers are now making $15,000/month with modified lead-apatite (LK-99).

Here's what this special rock is all about and how you can master it🧵
😁13010❤‍🔥8👍2🖕1
#чтивонаночь по быстрому
ToolLLM

Помните в феврале этого месяца крайне быстро поднялся, а затем угас хайп tool LM?
Ну типа мы не просто LM теперь, а комбайн который может тыкаться в любое api, использовать оттуда информацию, а еще можно кинуть LMке какое то api и она сама его как то сожрет.

Авторы зарлизили код и датасет для создания подобных схем(не трогайте, оно все очень медленное и тяжелое).

По результатам вышло неплохо - llama таким образом обгоняет GPT3.5-4 на их же бенчмарке(НЕОЖИДАННО) + добавили прикольный multi tool chain(когда модель последовательно ходит в разные инструменты)

код
🌭194👍4
Что такое lllm....
😁57💯5👎2🐳2👍1
лягушек люблю пиздец
👍5011🤪8🤮2❤‍🔥1🥰1
💯127😁377🔥3👍2