Love. Death. Transformers.
24.4K subscribers
4.57K photos
522 videos
81 files
2.98K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
Все это было у Замятина
👍51❤‍🔥71
Как понять что пишет NLPшник старой закалки: falcon, alpaca, wizardlm как отдельные модели.

бтв жду horny wizard lm
👍17😁72💊1
🥴54😁284💯3👀1
😁66🌚12🥴10🫡5🔥4🤷‍♂31
Всем привет! В эту субботу в 14:00 МСК будет онлайн-лекция для Better Data Community, от Ильи Гусева, старшего инженера по машинному обучению в Букинге, автора Сайги. Лекция будет про архитектуры, альтерантивные трансформерам, а именно про линейные рекуррентные сети. Внутри будет куча крутых архитектур которые полезно знать MLE инженерам из топовых перцентилей!
🔥51👍3❤‍🔥2😁2💯1
h=100 in 20years or faster
41😁32🤯31😢1🤣1
Я обновил рейтинг русскоязычных энкодеров предложений github.com/avidale/encodechka, по просьбам трудящихся (и благодаря помощи @dealerAI, нашедшего баг в моих расчетах и настойчиво о нем напоминавшего).

Напомню, что это бенчмарк из 8 задач на эмбеддинги предложений (и еще 2 дополнительные- на эмбеддинги токенов).
В каждой задаче эмбеддинги из модели берутся "как есть" (для BERT-подобных моделей я беру наилучший из двух: эмбеддинг первого токена либо средний эмбеддинг всех токенов), и применяются в качестве фичей для конечной задачи (косинусная близость, либо классификация с помощью логрега или knn).
Дальше я усредняю метрики качества по 8 основным задачам (они разные, но все между 0 и 1), и отмечаю модели, оптимально балансирующие это качество и размер либо скорость.

Что изменилось:
1) Некоторые скоры подвинулись вверх (но не очень сильно, в основном на 1-2%), благодаря исправленной опечатке в формуле усреднения эмбеддингов токенов.
2) Добавилось несколько новых моделей, включая:
- нового лидера Multilingual-E5-large, взявшего сразу 5 медалей в задачах семантической близости, анализа тональности, и классификации интентов;
- эмбеддинги от OpenAI text-embedding-ada-002, которые, несмотря на большую размерность, не особо себя проявили;
- symanto/sn-xlm-roberta-base-snli-mnli-anli-xnli, ожидаемо (и не очень честно) победившую в NLI задаче;
- deepvk/deberta-v1-base, победившую в разряде "детекция токсичности" (aka "одноклассники");
- энкодер от ai-forever/FRED-T5-large, победивший в детекции неполиткорректных текстов.
3) Добавил в лидерборд столбец с размерностью модели, так что теперь например видно, что одинаково перформят 1536-мерные эмбеддинги от OpenAI и 384-мерные из MiniLM-L12.

Если вы хотели бы видеть в бенчмарке какие-нибудь ещё энкодеры – пишите, добавлю!
🔥24👍71
😁78🔥8🥱5🥰3🤩3👎21
до сих пор смешно
😁33🥴53👎3🤣3🤮2👍1🤔1
82😢27🥰7🏆6🔥4🤣4🌭2🍌2🤮1
Forwarded from Derp Learning
This media is not supported in your browser
VIEW IN TELEGRAM
Аж олдскулы свело

Сорс by Dmitry Alekseev
82👍4👀3🤮2😢1🖕1
🍌64😁9🐳3🤔2🗿2👍1🥰1🥱1🌭1
код 200
мы вместе
❤‍🔥82🤮37🫡22😁17👍21🍾1🤓1
Forwarded from russiansinlondon
Еду в голодный край
👍34💯73🕊1🗿1
Ого Eva Elfie стала ресерчером??
🔥121😁71🍌155🤮4🤓2👍1🥴1🌚1
Да)) Почитаем пару твиттер-тредов, а потом в две руки запустим модель на лайтнинге, не переживай, никакого интима)
🌚30🥴65🤡32👍1
#чтивонаночь по быстрому

Text Embeddings by Weakly-Supervised Contrastive Pre-training
Кажется новая sentence SOTA от microsoft, идея в том чтобы собрать много грязных пар(Reddit, Stackexchange, wiki) где есть пара пост-коммент, статья-описание и всякое такое, а затем дотюнили на NLI/честной текстовой классификации.

В целом около SOTA на эмбед задачах, есть MT версии с поддержкой русского.

модель
статья
👍242🥱1
This media is not supported in your browser
VIEW IN TELEGRAM
пост про диффузии обязательно выйдет погулять, хз когда

гифка украдена из @dankpostcards
🔥17🥰5👍42
Forwarded from ML-легушька (Николай Кутузов)
Ранняя_диагностика_нейродегенеративных_заболеваний_2.pdf
647.8 KB
Собственно решение моей задачи.
Я изучил статьи, связанные с диагностикой болезни Альцгеймера. Некоторое время назад было проведено масштабное исследование, которое показало, что мы можем смотреть уровень неправильно свернутого бета-амилоида (белка, который является неизменным спутником болезни Альцгеймера, так как именно накопление неправильного бета-амилоида в мозге ведет к созданию амилоидных бляшек, которые разрушают мозг, и соответственно к деменции) в плазме крови с помощью имунно-инфракрасного датчика, производство которых с каждым годом становится все дешевле. Такой метод имеет 0.79 Recall и 0.06 FPR. Если сочетать его с анализом спинномозговой жидкости на тау-белок, то recall вырастает до 0.87, а FPR снижается до 0.03. Однако пункция спинномозговой жидкости - инвазивный метод, причем более дорогой. Поэтому я предложил использовать ЭЭГ в качестве второго этапа проверки, так как он делается легче, неинвазивно и дешевле, и изменения в ЭЭГ также могут свидетельствовать о болезни Альцгеймера.
Также, чтобы не перегружать систему здравоохранения, я предложил отправлять людей рандомизированно на тест на бета-амилоид + ЭЭГ, дополняя эту связку пункцией спинномозговой жидкости при необходимости. Вероятность отправки на тест зависит от возраста и предсказания ML-модели, которая обучается по истории болезней и анкетированию определять риск появления болезни Альцгеймера.
Чтобы подтвердить жизнеспособность моего решения, я смоделировал работу такой системы, в предположении что несколько этапов теста делают его очень точным. Соответственно, я смоделировал работу ML-модели, ручками сделал решающее дерево для определения вероятностей, и посмотрел, какого recall при отправке на тест при какой нагрузке на систему здравоохранения мы можем добиться. Получилось даже не очень плохо! Система легко адаптируется под другие заболевания, при наличии хороших биомаркеров, т.к. от Альцгеймера тут только вероятность появления болезни от возраста.
Прикладываю презентацию, там подробнее описаны результаты и процесс моделирования.
❤‍🔥60🆒7👍5🔥4🥴1