Аннотированный код
Наткнулся на классный сайт, где собран код некоторых популярных моделей (или их частей), например Stable Diffusion, GPT, Switch Tranformer, MPL-Mixer и др. Весь цимес в том, что каждая строка кода задокументирована, и показаны соответствующие математические формулы.
Будет полезно тем, кто любит начининать изучать модели сразу с кода. Как раз занятие на воскресенье.
На скринах - код DDIM и Adam.
https://nn.labml.ai/
@ai_newz
Наткнулся на классный сайт, где собран код некоторых популярных моделей (или их частей), например Stable Diffusion, GPT, Switch Tranformer, MPL-Mixer и др. Весь цимес в том, что каждая строка кода задокументирована, и показаны соответствующие математические формулы.
Будет полезно тем, кто любит начининать изучать модели сразу с кода. Как раз занятие на воскресенье.
На скринах - код DDIM и Adam.
https://nn.labml.ai/
@ai_newz
❤194🔥105👍32👏3👎2❤🔥1
Друзья, нас уже стало довольно много. Поэтому я хочу лучше понять аудиторию канала, чтобы больше писать про то, что вам интересно.
Помогите улучшить канал - пройдите коротенький опрос (займет у вас 1 минуту):
https://forms.gle/WerMi5pKiEheui6g6
Спасибо! ♥️
@ai_newz
Помогите улучшить канал - пройдите коротенький опрос (займет у вас 1 минуту):
https://forms.gle/WerMi5pKiEheui6g6
Спасибо! ♥️
@ai_newz
Google Docs
Опрос читателей @ai_newz
Друзья, спасибо, что помогаете своими ответами улучшить канал!
❤90👍70👎23❤🔥6😁1
Прочитал интереcный теоретический результат про аналогию между промптингом трансформеров и meta-learning с помощью градиентного спуска
Все мы знаем, как классно работают промптики в языковых моделях. Задаешь контекст или пару примеров, и модель тебе отвечает без всякого явного обучения на новой задаче. Ну не чудо ли?
В статье "Transformers learn in-context by gradient descent" авторы решили поизучать это феномен. По научному промптинг или few-show learnign в языковых моделя еще часто называеют "In-context learning", то есть обучение по контексту.
Для простоты авторы взяли задачу линейной регрессии, и обучили трансформер, которому на вход подается вместо текста последовательность точек
Удивительно, авторы выясниили, что в этой задаче forward pass трансформера из N self-attention слоев по сути эквивалентен N-шагам обучения регресии с помощью градиентного спуска на примере, заданном
@ai_newz
Все мы знаем, как классно работают промптики в языковых моделях. Задаешь контекст или пару примеров, и модель тебе отвечает без всякого явного обучения на новой задаче. Ну не чудо ли?
В статье "Transformers learn in-context by gradient descent" авторы решили поизучать это феномен. По научному промптинг или few-show learnign в языковых моделя еще часто называеют "In-context learning", то есть обучение по контексту.
Для простоты авторы взяли задачу линейной регрессии, и обучили трансформер, которому на вход подается вместо текста последовательность точек
context = (x1, y1), (x2,y2),..., (xn_yn), x_q. А в ответ модель выдаёт координату yq для запроса xq. Удивительно, авторы выясниили, что в этой задаче forward pass трансформера из N self-attention слоев по сути эквивалентен N-шагам обучения регресии с помощью градиентного спуска на примере, заданном
context-ом.@ai_newz
🔥105🤯38😱15👍13❤7
эйай ньюз
Прочитал интереcный теоретический результат про аналогию между промптингом трансформеров и meta-learning с помощью градиентного спуска Все мы знаем, как классно работают промптики в языковых моделях. Задаешь контекст или пару примеров, и модель тебе отвечает…
То есть чем больше слоев у трансформера - тем более точно он будет "фититься" под заданную промптом задачку. Как бы "stack more layers" - это не новость, но явная аналогия с Gradient Descent - это интересно.
Анализ хоть и проведен на простой задаче линейной регрессии, но дает инсайты о том, как оно работает и в случае текста (только там задача гораздо сложнее и нелинейная).
@ai_newz
Анализ хоть и проведен на простой задаче линейной регрессии, но дает инсайты о том, как оно работает и в случае текста (только там задача гораздо сложнее и нелинейная).
@ai_newz
❤56🤯20👍15😱2
Беспилотник Cruise, в котором ехал пассажир, столкнулся с пожарной машиной в Сан-Франциско
Это одна из самых серьезных аварий с участием беспилотников за последнеей время. Пожарные ехали на вызов со всключенными сиренами и пересекали перекресток на красный свет по встречной полосе. В то время Cruise с пассажиром на заднем сидении выехал на перекресток на зеленый свет и в него въехала пожарная машина. Вроде как беспилотник неверно просчитал траекторию пожарной, ведь та двигалась по встречке и на красный свет. Когда Cruise заметил приближающуюся пожарную машину, он затормозил, но избежать столкновения уже не смог.
В беспилотниках Cruise есть микрофоны, которые по идее должны распознавать звуки сирены и брать это во внимание, чтобы уступать дорогу. Но, видимо, что-то пошло не так.
Пассажир не получил никаких серьёзных повреждений и его доставили в больницу (интересно, будет ли он подавать в суд на Cruise).
Иронично, что эта авария произошла через неделю после того как власти Сан-Франциско разрешили Cruise и Waymo безграничные поездки беспилотных такси по городу 24/7 (ранее у них были ограничения по времени и по районам). Теперь же на время расследования Cruise обязали сократить парк своих машин на 50%. И, кажется, есть небольшая вероятность, что у них вообще заберут право возить пассажиров, если подтвердится однозначная вина автопилота.
Надеюсь, что баги быстро поправят, и развитие автопилотников на этом не загнется. Чем больше времени проходит, тем меньше должно становиться таких аварий.
Кстати, я недавно писал о своем опыте встречи с беспилотниками Cruise, когда я ездил по Сан-Франциско(благо обошлось без аварии) .
@ai_newz
Это одна из самых серьезных аварий с участием беспилотников за последнеей время. Пожарные ехали на вызов со всключенными сиренами и пересекали перекресток на красный свет по встречной полосе. В то время Cruise с пассажиром на заднем сидении выехал на перекресток на зеленый свет и в него въехала пожарная машина. Вроде как беспилотник неверно просчитал траекторию пожарной, ведь та двигалась по встречке и на красный свет. Когда Cruise заметил приближающуюся пожарную машину, он затормозил, но избежать столкновения уже не смог.
В беспилотниках Cruise есть микрофоны, которые по идее должны распознавать звуки сирены и брать это во внимание, чтобы уступать дорогу. Но, видимо, что-то пошло не так.
Пассажир не получил никаких серьёзных повреждений и его доставили в больницу (интересно, будет ли он подавать в суд на Cruise).
Иронично, что эта авария произошла через неделю после того как власти Сан-Франциско разрешили Cruise и Waymo безграничные поездки беспилотных такси по городу 24/7 (ранее у них были ограничения по времени и по районам). Теперь же на время расследования Cruise обязали сократить парк своих машин на 50%. И, кажется, есть небольшая вероятность, что у них вообще заберут право возить пассажиров, если подтвердится однозначная вина автопилота.
Надеюсь, что баги быстро поправят, и развитие автопилотников на этом не загнется. Чем больше времени проходит, тем меньше должно становиться таких аварий.
Кстати, я недавно писал о своем опыте встречи с беспилотниками Cruise, когда я ездил по Сан-Франциско
@ai_newz
😢70👍16❤11🔥7😱6😁4👎2🐳1
Пум-пум-пум. Там Opena AI выкатили значительную фичу - тепeрь можно файнтюнить GPT 3.5 Turbo.
По сути это LoRa-as-a-service. Готовите json файл со своими диалогами, загружаете на сервер OpenAI (если хотите без этого - то вам к LLaMa и сородичам, кек) через API и через апишку же и запускаете трейнинг.
Цена вопроса:
- Во время тренировки: $0.008 / 1K токенов
- Стоимость ввода во время инференса вашей кастомной модели: $0.012 / 1K токенов
- Стоимость генерации: $0.016 / 1K Tokens.
В общем, для
а для
Гайд по файн-тюнингу GPT 3.5
@ai_newz
По сути это LoRa-as-a-service. Готовите json файл со своими диалогами, загружаете на сервер OpenAI (если хотите без этого - то вам к LLaMa и сородичам, кек) через API и через апишку же и запускаете трейнинг.
Цена вопроса:
- Во время тренировки: $0.008 / 1K токенов
- Стоимость ввода во время инференса вашей кастомной модели: $0.012 / 1K токенов
- Стоимость генерации: $0.016 / 1K Tokens.
В общем, для
babbage-002 кастомная модель обойдется в 4 раза дороже,а для
davinci-002 в 6 раз дороже чем базовая. Оно, конечно, понятно - нужно же отдельную ноду поднять и зарезервировать GPU под вашу индивидуальную модель.Гайд по файн-тюнингу GPT 3.5
@ai_newz
🔥92👍12❤6🤯5👎3❤🔥1
Consciousness in Artificial Intelligence: Insights from the Science of Consciousness
На днях появился философский трактат на 80 страниц, в котором Ëшуа Бенжио, один из отцов Deep Learning, вместе с соавторами размышляет о том, есть ли сознание у текущих AI систем.
Авторы из сферы философии сознания, когнитивной науки и AI попытались вместе создать список более-меннее формальных необходимых критериев (но не достаточных), которым должен удовлетворять AI с сознанием. Сами критерии - в комментах.
Провели case-study и проанализировали, например, такие модели:
- GPT / Transformers
- Perciever
- PaLM-E
- Adaptive Agent (DeepMind)
В общем, оказалось, что ни одна из ныне существующих нейросетей не обладает сознанием. Хотя обучить систему под каждый отдельный пункт вроде бы возможно, трудно сделать так, чтобы AI удовлетворял всем критериям одновременно - но и тогда, не факт еще что он обретет сознание.
Авторы верят, что мы в течение нескольких ближайших десятилетий сможем построить AI c сознанием.
@ai_newz
На днях появился философский трактат на 80 страниц, в котором Ëшуа Бенжио, один из отцов Deep Learning, вместе с соавторами размышляет о том, есть ли сознание у текущих AI систем.
Авторы из сферы философии сознания, когнитивной науки и AI попытались вместе создать список более-меннее формальных необходимых критериев (но не достаточных), которым должен удовлетворять AI с сознанием. Сами критерии - в комментах.
Провели case-study и проанализировали, например, такие модели:
- GPT / Transformers
- Perciever
- PaLM-E
- Adaptive Agent (DeepMind)
В общем, оказалось, что ни одна из ныне существующих нейросетей не обладает сознанием. Хотя обучить систему под каждый отдельный пункт вроде бы возможно, трудно сделать так, чтобы AI удовлетворял всем критериям одновременно - но и тогда, не факт еще что он обретет сознание.
Авторы верят, что мы в течение нескольких ближайших десятилетий сможем построить AI c сознанием.
@ai_newz
🔥83👍17❤12😁5🤔5😱4🐳1
Как и ожидалось - у некоторых твитторских уже порвало пуканы от этого манускрипта. Как например у Гэри Маркуса, автора бестселлеров об опасности AI и сторонника моратория на разработку AI.
Кажется, Гэри даже цитирует несуществующие в препринте фразы, чтобы придать драматизма.
@ai_newz
Кажется, Гэри даже цитирует несуществующие в препринте фразы, чтобы придать драматизма.
@ai_newz
😁54🤣19👍4🌚3👏1🤯1😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Типичное кафе в стране восточной Европы. На приватность данных плевать — владелец установил тотальный контроль за работниками и за клиентами.
Работает детекция, трекинг и ре-идентификация. Так для каждого работника есть фотки в базе - то можно трекать их поимённо, ещё и считать сколько чашек кофе каждый сделал. Клиентов же трекают для того, чтобы собрать статистику о том, сколько времени люди проводят в заведении.
Такую системы в наши дни очень просто собрать на недорогом игровом ПК. Это уже почти решенная проблема (особенно если пространство и пул лиц ограничен).
Видео просто ещё раз даёт нам понять, как легко можно трекать всех-всех граждан (привет поднебесной !).
Хорошо, что хоть в Европе за такое пока бьют по рукам.
@ai_newz
Работает детекция, трекинг и ре-идентификация. Так для каждого работника есть фотки в базе - то можно трекать их поимённо, ещё и считать сколько чашек кофе каждый сделал. Клиентов же трекают для того, чтобы собрать статистику о том, сколько времени люди проводят в заведении.
Такую системы в наши дни очень просто собрать на недорогом игровом ПК. Это уже почти решенная проблема (особенно если пространство и пул лиц ограничен).
Видео просто ещё раз даёт нам понять, как легко можно трекать всех-всех граждан (привет поднебесной !).
Хорошо, что хоть в Европе за такое пока бьют по рукам.
@ai_newz
😱144👍60🤬25🔥9❤8🤣6🌭2🦄1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥3D Gaussian Splatting for Real-Time Radiance Field Rendering
На видео - результат работы алгоритма, использующего снимки с дрона для реконструкции 3D сцены. Можно летать в ней риал-тайм.
Это стало возможным благодаря тому, что недавно переизобрели новый "старый" метод нейронного рендеринга.
Что такое Гаусовские Сплаты, простыми словами:
Используя видео с помощью Structure from Motion (COLMAP) извлекается облако точек, затем по облаку инициализируется набор маленьких полупрозрачных гауссиан. Эти гауссианы затем оптимизируются чтобы после рендеринга максимально точно восстанавливать оригинальные кадры. Все, ваша 3д-сцена готова.
То есть это никакой не Nerual Radiance Field. Тут все гораздо проще. За счет простоты эта штука и обучается, и рендерится довольно быстро. А назвал я этот метод новым "старым", потому что это до боли напоминает работу 2019 года Neural Point-Based Graphics (я писал о нем тут), где похожим образом для каждой точки обучался небольшой плоский элипсоид.
Сайт проекта
Код (можно запустить на своих cценах)
#ликбез
@ai_newz
На видео - результат работы алгоритма, использующего снимки с дрона для реконструкции 3D сцены. Можно летать в ней риал-тайм.
Это стало возможным благодаря тому, что недавно переизобрели новый "старый" метод нейронного рендеринга.
Что такое Гаусовские Сплаты, простыми словами:
Используя видео с помощью Structure from Motion (COLMAP) извлекается облако точек, затем по облаку инициализируется набор маленьких полупрозрачных гауссиан. Эти гауссианы затем оптимизируются чтобы после рендеринга максимально точно восстанавливать оригинальные кадры. Все, ваша 3д-сцена готова.
То есть это никакой не Nerual Radiance Field. Тут все гораздо проще. За счет простоты эта штука и обучается, и рендерится довольно быстро. А назвал я этот метод новым "старым", потому что это до боли напоминает работу 2019 года Neural Point-Based Graphics (я писал о нем тут), где похожим образом для каждой точки обучался небольшой плоский элипсоид.
Сайт проекта
Код (можно запустить на своих cценах)
#ликбез
@ai_newz
🔥123👍33❤23
Я уже упоминал, что пользоваться ChatGPT в крупных компаниях - это моветон. Ведь нет никаких гарантий о приватности данных (и минимум до 1 марта они тренировали модели на диалогах пользователей).
Пишут, что за 9 месяцев со дня первого релиза 80% крупнейших американских компаний из Fortune 500 использовали ChatGPT. Поразительно, но статистику эту смогли подбить, проанализировав е-мейлы, с которыми регались люди - они использовали рабочие домены. Ух, как многим прилетело бы (как было, например, в Samsung), если бы начальству в руки попал список е-мейлов. На самом деле пользоваться ChatGPT и не слить никакой корпоративной информации в чат - очень сложно. Нужно тщательно анонимизировать свои запросы, но большинство людей забивают.
OpenAI, осознав проблему, выкатили специальную версию для корпоративных клиентов - ChatGPT Enterprise.
Обещают повышенную безопасность переписок и вот такие бонусы:
- GPT-4 без ограничений по кол-ву запросов
- Работает в 2 раза быстрее
- Более длинный контекст (32k токенов), для работы с файлами и большими запросами
- Доступ к Code Interpreter
- Возможность кастомизации (возможно дадут дообучить на своих данных)
И самое главное:
1. "Мы не тренируемся на ваших бизнес-данных и диалогах".
2. "Все диалоги зашифрованы во время передачи и во время хранения."
Для многих такого успокоения будет достаточно.
@ai_newz
Пишут, что за 9 месяцев со дня первого релиза 80% крупнейших американских компаний из Fortune 500 использовали ChatGPT. Поразительно, но статистику эту смогли подбить, проанализировав е-мейлы, с которыми регались люди - они использовали рабочие домены. Ух, как многим прилетело бы (как было, например, в Samsung), если бы начальству в руки попал список е-мейлов. На самом деле пользоваться ChatGPT и не слить никакой корпоративной информации в чат - очень сложно. Нужно тщательно анонимизировать свои запросы, но большинство людей забивают.
OpenAI, осознав проблему, выкатили специальную версию для корпоративных клиентов - ChatGPT Enterprise.
Обещают повышенную безопасность переписок и вот такие бонусы:
- GPT-4 без ограничений по кол-ву запросов
- Работает в 2 раза быстрее
- Более длинный контекст (32k токенов), для работы с файлами и большими запросами
- Доступ к Code Interpreter
- Возможность кастомизации (возможно дадут дообучить на своих данных)
И самое главное:
1. "Мы не тренируемся на ваших бизнес-данных и диалогах".
2. "Все диалоги зашифрованы во время передачи и во время хранения."
Для многих такого успокоения будет достаточно.
@ai_newz
OpenAI
Introducing ChatGPT Enterprise
Get enterprise-grade security & privacy and the most powerful version of ChatGPT yet.
😁66❤33👍27🔥6👏2
Telegram
Neural Shit
Наконец-то ВИДЕОМЕМЫ
😁138❤17🔥12👍10🤯7🤣5😢2🤔1🤬1🐳1
Эндрю Ын вчера выкатил новый мини-курс: How Business Thinkers Can Start Building AI Plugins With Semantic Kernel
Курс длиной всего в 1 час и рассчитан на новичков - технического мяса там не ожидается. Нужно только знать Python.
Но обещают научить строить пайплайны с LLM, пользоваться памятью и писать плагины для решения бизнес-задач. Работа будет идти на базе Semantic Kernel — это SDK для языковых моделей от Microsoft, что-то похожее на уже известный нам LangChain.
Курс ведёт не хер с горы, а VP of Design and Artificial Intelligence из Microsoft.
Ссылка на курс (временно бесплатно)
@ai_newz
Курс длиной всего в 1 час и рассчитан на новичков - технического мяса там не ожидается. Нужно только знать Python.
Но обещают научить строить пайплайны с LLM, пользоваться памятью и писать плагины для решения бизнес-задач. Работа будет идти на базе Semantic Kernel — это SDK для языковых моделей от Microsoft, что-то похожее на уже известный нам LangChain.
Курс ведёт не хер с горы, а VP of Design and Artificial Intelligence из Microsoft.
Ссылка на курс (временно бесплатно)
@ai_newz
DeepLearning.AI - Learning Platform
How Business Thinkers Can Start Building AI Plugins With Semantic Kernel
Learn Microsoft's open source orchestrator, Semantic Kernel and use LLM building blocks such as memory, connectors, chains and planners in your apps.
🔥75👍34❤11🌭2💯1
This media is not supported in your browser
VIEW IN TELEGRAM
Классный эксперимент с Гауссовскими Сплаттингом (я писал об этом методе на днях). Челик взял три картины, задал для них вручную разные позиции камер внутри ондной сцены и обучил сплаттинг.
В итоге при повороте камеры достигается такой интересный эффект перехода одной картины в другую. Сплатики научились отображать разные картины с различных углов.
Кстати, вот тут еще повилась имплементация рендеринга Gaussian Splatting внутри божественной библиотеки nerfstudio (подробнее про нее в этом посте).
@ai_newz
В итоге при повороте камеры достигается такой интересный эффект перехода одной картины в другую. Сплатики научились отображать разные картины с различных углов.
Кстати, вот тут еще повилась имплементация рендеринга Gaussian Splatting внутри божественной библиотеки nerfstudio (подробнее про нее в этом посте).
@ai_newz
👍92🔥51🤯14❤11🤔2🤬1
Я, кажется, уже упоминал, что супервайжу несколько PhD студентов, которые пишут с нами научные работы. Так вот сейчас я ищу студента-магистранта из ETH, который бы писал свою магистерскую работу под моим надзором в коллаборации с одним профессором из ETH. Сегодня получил резюме от одного перспективного студента.
Вы только посмотрите какие клёвые курсы дают в магистратуре по Computer Science в ETH Zürich! На скрине – часть транскрипта студента. Те вещи, которые мне приходилось учить самому методом проб и ошибок, например Digital Humans или Shape Modelling, студентам в хороших ВУЗах уже преподают в структурированном виде.
Я уверен, что и в других вузах появляется куча новых актуальных курсов. Но даже если вы уже не студент, то в интернете можно найти такие же крутые онлайн курсы от ведущих университетов, которые можно изучать бесплатно!
@ai_newz
Вы только посмотрите какие клёвые курсы дают в магистратуре по Computer Science в ETH Zürich! На скрине – часть транскрипта студента. Те вещи, которые мне приходилось учить самому методом проб и ошибок, например Digital Humans или Shape Modelling, студентам в хороших ВУЗах уже преподают в структурированном виде.
Я уверен, что и в других вузах появляется куча новых актуальных курсов. Но даже если вы уже не студент, то в интернете можно найти такие же крутые онлайн курсы от ведущих университетов, которые можно изучать бесплатно!
@ai_newz
❤125🔥51👍27🤯9🌚3🤬1💯1
🔥Сегодня вышла просто гигантская модель Falcon 180B!
Иновационный Институт Технологий Абу-Даби удивляет. Их новая модель Falcon 180B теперь заняла первое место на открытом лидерборде HF. По качеству ответов она где-то между GPT-3.5 и GPT.4, примерно на уровне PaLM-2.
Параметры модели Falcon-180B:
- 180 млрд параметров! Напомню, что предыдущая самая мощная открытая модель была LLaMa-2 70B.
- Контекст 2048 токенов (но можно расширить с попощью RoPE scaling)
- Тренили 2.5 месяца на 4096 GPU на Amazon SageMaker.
- Модель видела 3.5 триллионов токенов (против 2 триллиона у LLaMa 2). То есть Falcon прочитала почти в 2 раза больше текстов.
- Multi-query attention (MQA) для скорости инференса и чтобы не раздувать количество параметров.
- Есть базовая и чатовая версии.
Забавно, что для инференса этой модели в int4 вам потребуется 8x A100 видеокарт (удачи!).
Лицензия позволяет очень ограниченное коммерческое использование.
❱❱ Веса и код доступны на HuggingFace HUB.
❱❱ Демо (жестко педалит).
@ai_newz
Иновационный Институт Технологий Абу-Даби удивляет. Их новая модель Falcon 180B теперь заняла первое место на открытом лидерборде HF. По качеству ответов она где-то между GPT-3.5 и GPT.4, примерно на уровне PaLM-2.
Параметры модели Falcon-180B:
- 180 млрд параметров! Напомню, что предыдущая самая мощная открытая модель была LLaMa-2 70B.
- Контекст 2048 токенов (но можно расширить с попощью RoPE scaling)
- Тренили 2.5 месяца на 4096 GPU на Amazon SageMaker.
- Модель видела 3.5 триллионов токенов (против 2 триллиона у LLaMa 2). То есть Falcon прочитала почти в 2 раза больше текстов.
- Multi-query attention (MQA) для скорости инференса и чтобы не раздувать количество параметров.
- Есть базовая и чатовая версии.
Забавно, что для инференса этой модели в int4 вам потребуется 8x A100 видеокарт (удачи!).
Лицензия позволяет очень ограниченное коммерческое использование.
❱❱ Веса и код доступны на HuggingFace HUB.
❱❱ Демо (жестко педалит).
@ai_newz
huggingface.co
Spread Your Wings: Falcon 180B is here
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥70👍30😁16❤11🤔2🤬2🤩1
Сегодня на Practical ML Conf Яндекс анонсировал обновленную версию своей языковой модели - YandexGPT2. Новая модель дает более качественный ответ, чем первая версия, в 67% случаев. YandexGPT2 лучше справляется со сложными инструкциями пользователей, лучше анализирует тексты и адаптирует текст под разные стили и аудитории.
Увеличили размер модели и расширили датасет (собрали больше реальных + синтетических данных). В общем, кажется, что модель хорошо дообучили. Правда, на лидерборде HF мы эту модель не увидим, потому что бенчмарки в основном англоязычные, а YandexGPT2 все же заточена на русский язык.
YandexGPT2 уже пошла в прод - ее задеплоили в Алису в фичу "Давай придумаем" (можно запустить прямо в поиске), где можно попросить LLM сгененерить что-то креативное, будь то стих или сценарий.
@ai_newz
Увеличили размер модели и расширили датасет (собрали больше реальных + синтетических данных). В общем, кажется, что модель хорошо дообучили. Правда, на лидерборде HF мы эту модель не увидим, потому что бенчмарки в основном англоязычные, а YandexGPT2 все же заточена на русский язык.
YandexGPT2 уже пошла в прод - ее задеплоили в Алису в фичу "Давай придумаем" (можно запустить прямо в поиске), где можно попросить LLM сгененерить что-то креативное, будь то стих или сценарий.
@ai_newz
Приём докладов | Practical ML Conf
PML Conf — ежегодная конференция от Яндекса, посвящённая технологиям, которые уже сейчас приносят пользу бизнесу. Ждём ваши хардовые доклады по направлениям: CV, NLP, Speech, RecSys, MLOps, Data Science.
🔥70👍25🌭11❤9🤣3
This media is not supported in your browser
VIEW IN TELEGRAM
Ничего необычного. Прошло 2 дня с выхода Falcon 180B и Герганов уже как ни в чем не бывало гоняет её у себя на маке M2 Ultra через LLaMa.cpp со скоростью 6.30 токенов в секунду
Это 4-битная моделька falcon-180b-chat.Q4_0.gguf отсюда.
@ai_newz
Это 4-битная моделька falcon-180b-chat.Q4_0.gguf отсюда.
@ai_newz
❤🔥124🔥70🤯11👍7🤩4😱3❤1