эйай ньюз
93.7K subscribers
1.97K photos
1.03K videos
7 files
2.31K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

Ex-Staff Research Scientist в Meta Generative AI. Сейчас CEO&Founder AI стартапа в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Аннотированный код

Наткнулся на классный сайт, где собран код некоторых популярных моделей (или их частей), например Stable Diffusion, GPT, Switch Tranformer, MPL-Mixer и др. Весь цимес в том, что каждая строка кода задокументирована, и показаны соответствующие математические формулы.

Будет полезно тем, кто любит начининать изучать модели сразу с кода. Как раз занятие на воскресенье.

На скринах - код DDIM и Adam.

https://nn.labml.ai/

@ai_newz
194🔥105👍32👏3👎2❤‍🔥1
Друзья, нас уже стало довольно много. Поэтому я хочу лучше понять аудиторию канала, чтобы больше писать про то, что вам интересно.

Помогите улучшить канал - пройдите коротенький опрос (займет у вас 1 минуту):
https://forms.gle/WerMi5pKiEheui6g6

Спасибо! ♥️

@ai_newz
90👍70👎23❤‍🔥6😁1
Прочитал интереcный теоретический результат про аналогию между промптингом трансформеров и meta-learning с помощью градиентного спуска

Все мы знаем, как классно работают промптики в языковых моделях. Задаешь контекст или пару примеров, и модель тебе отвечает без всякого явного обучения на новой задаче. Ну не чудо ли?

В статье "Transformers learn in-context by gradient descent" авторы решили поизучать это феномен. По научному промптинг или few-show learnign в языковых моделя еще часто называеют "In-context learning", то есть обучение по контексту.

Для простоты авторы взяли задачу линейной регрессии, и обучили трансформер, которому на вход подается вместо текста последовательность точек context = (x1, y1), (x2,y2),..., (xn_yn), x_q. А в ответ модель выдаёт координату yq для запроса xq.

Удивительно, авторы выясниили, что в этой задаче forward pass трансформера из N self-attention слоев по сути эквивалентен N-шагам обучения регресии с помощью градиентного спуска на примере, заданном context-ом.

@ai_newz
🔥105🤯38😱15👍137
эйай ньюз
Прочитал интереcный теоретический результат про аналогию между промптингом трансформеров и meta-learning с помощью градиентного спуска Все мы знаем, как классно работают промптики в языковых моделях. Задаешь контекст или пару примеров, и модель тебе отвечает…
То есть чем больше слоев у трансформера - тем более точно он будет "фититься" под заданную промптом задачку. Как бы "stack more layers" - это не новость, но явная аналогия с Gradient Descent - это интересно.

Анализ хоть и проведен на простой задаче линейной регрессии, но дает инсайты о том, как оно работает и в случае текста (только там задача гораздо сложнее и нелинейная).

@ai_newz
56🤯20👍15😱2
Беспилотник Cruise, в котором ехал пассажир, столкнулся с пожарной машиной в Сан-Франциско

Это одна из самых серьезных аварий с участием беспилотников за последнеей время. Пожарные ехали на вызов со всключенными сиренами и пересекали перекресток на красный свет по встречной полосе. В то время Cruise с пассажиром на заднем сидении выехал на перекресток на зеленый свет и в него въехала пожарная машина. Вроде как беспилотник неверно просчитал траекторию пожарной, ведь та двигалась по встречке и на красный свет. Когда Cruise заметил приближающуюся пожарную машину, он затормозил, но избежать столкновения уже не смог.

В беспилотниках Cruise есть микрофоны, которые по идее должны распознавать звуки сирены и брать это во внимание, чтобы уступать дорогу. Но, видимо, что-то пошло не так.

Пассажир не получил никаких серьёзных повреждений и его доставили в больницу (интересно, будет ли он подавать в суд на Cruise).

Иронично, что эта авария произошла через неделю после того как власти Сан-Франциско разрешили Cruise и Waymo безграничные поездки беспилотных такси по городу 24/7 (ранее у них были ограничения по времени и по районам). Теперь же на время расследования Cruise обязали сократить парк своих машин на 50%. И, кажется, есть небольшая вероятность, что у них вообще заберут право возить пассажиров, если подтвердится однозначная вина автопилота.

Надеюсь, что баги быстро поправят, и развитие автопилотников на этом не загнется. Чем больше времени проходит, тем меньше должно становиться таких аварий.

Кстати, я недавно писал о своем опыте встречи с беспилотниками Cruise, когда я ездил по Сан-Франциско (благо обошлось без аварии).

@ai_newz
😢70👍1611🔥7😱6😁4👎2🐳1
Пум-пум-пум. Там Opena AI выкатили значительную фичу - тепeрь можно файнтюнить GPT 3.5 Turbo.

По сути это LoRa-as-a-service. Готовите json файл со своими диалогами, загружаете на сервер OpenAI (если хотите без этого - то вам к LLaMa и сородичам, кек) через API и через апишку же и запускаете трейнинг.

Цена вопроса:
- Во время тренировки: $0.008 / 1K токенов
- Стоимость ввода во время инференса вашей кастомной модели: $0.012 / 1K токенов
- Стоимость генерации: $0.016 / 1K Tokens.

В общем, для babbage-002 кастомная модель обойдется в 4 раза дороже,
а для davinci-002 в 6 раз дороже чем базовая. Оно, конечно, понятно - нужно же отдельную ноду поднять и зарезервировать GPU под вашу индивидуальную модель.

Гайд по файн-тюнингу GPT 3.5

@ai_newz
🔥92👍126🤯5👎3❤‍🔥1
Consciousness in Artificial Intelligence: Insights from the Science of Consciousness

На днях появился философский трактат на 80 страниц, в котором Ëшуа Бенжио, один из отцов Deep Learning, вместе с соавторами размышляет о том, есть ли сознание у текущих AI систем.

Авторы из сферы философии сознания, когнитивной науки и AI попытались вместе создать список более-меннее формальных необходимых критериев (но не достаточных), которым должен удовлетворять AI с сознанием. Сами критерии - в комментах.

Провели case-study и проанализировали, например, такие модели:
- GPT / Transformers
- Perciever
- PaLM-E
- Adaptive Agent (DeepMind)

В общем, оказалось, что ни одна из ныне существующих нейросетей не обладает сознанием. Хотя обучить систему под каждый отдельный пункт вроде бы возможно, трудно сделать так, чтобы AI удовлетворял всем критериям одновременно - но и тогда, не факт еще что он обретет сознание.

Авторы верят, что мы в течение нескольких ближайших десятилетий сможем построить AI c сознанием.

@ai_newz
🔥83👍1712😁5🤔5😱4🐳1
Как и ожидалось - у некоторых твитторских уже порвало пуканы от этого манускрипта. Как например у Гэри Маркуса, автора бестселлеров об опасности AI и сторонника моратория на разработку AI.

Кажется, Гэри даже цитирует несуществующие в препринте фразы, чтобы придать драматизма.

@ai_newz
😁54🤣19👍4🌚3👏1🤯1😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Типичное кафе в стране восточной Европы. На приватность данных плевать — владелец установил тотальный контроль за работниками и за клиентами.

Работает детекция, трекинг и ре-идентификация. Так для каждого работника есть фотки в базе - то можно трекать их поимённо, ещё и считать сколько чашек кофе каждый сделал. Клиентов же трекают для того, чтобы собрать статистику о том, сколько времени люди проводят в заведении.

Такую системы в наши дни очень просто собрать на недорогом игровом ПК. Это уже почти решенная проблема (особенно если пространство и пул лиц ограничен).

Видео просто ещё раз даёт нам понять, как легко можно трекать всех-всех граждан (привет поднебесной !).
Хорошо, что хоть в Европе за такое пока бьют по рукам.

@ai_newz
😱144👍60🤬25🔥98🤣6🌭2🦄1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥3D Gaussian Splatting for Real-Time Radiance Field Rendering

На видео - результат работы алгоритма, использующего снимки с дрона для реконструкции 3D сцены. Можно летать в ней риал-тайм.

Это стало возможным благодаря тому, что недавно переизобрели новый "старый" метод нейронного рендеринга.

Что такое Гаусовские Сплаты, простыми словами:
Используя видео с помощью Structure from Motion (COLMAP) извлекается облако точек, затем по облаку инициализируется набор маленьких полупрозрачных гауссиан. Эти гауссианы затем оптимизируются чтобы после рендеринга максимально точно восстанавливать оригинальные кадры. Все, ваша 3д-сцена готова.

То есть это никакой не Nerual Radiance Field. Тут все гораздо проще. За счет простоты эта штука и обучается, и рендерится довольно быстро. А назвал я этот метод новым "старым", потому что это до боли напоминает работу 2019 года Neural Point-Based Graphics (я писал о нем тут), где похожим образом для каждой точки обучался небольшой плоский элипсоид.

Сайт проекта
Код (можно запустить на своих cценах)

#ликбез
@ai_newz
🔥123👍3323
Я уже упоминал, что пользоваться ChatGPT в крупных компаниях - это моветон. Ведь нет никаких гарантий о приватности данных (и минимум до 1 марта они тренировали модели на диалогах пользователей).

Пишут, что за 9 месяцев со дня первого релиза 80% крупнейших американских компаний из Fortune 500 использовали ChatGPT. Поразительно, но статистику эту смогли подбить, проанализировав е-мейлы, с которыми регались люди - они использовали рабочие домены. Ух, как многим прилетело бы (как было, например, в Samsung), если бы начальству в руки попал список е-мейлов. На самом деле пользоваться ChatGPT и не слить никакой корпоративной информации в чат - очень сложно. Нужно тщательно анонимизировать свои запросы, но большинство людей забивают.

OpenAI, осознав проблему, выкатили специальную версию для корпоративных клиентов - ChatGPT Enterprise.

Обещают повышенную безопасность переписок и вот такие бонусы:
- GPT-4 без ограничений по кол-ву запросов
- Работает в 2 раза быстрее
- Более длинный контекст (32k токенов), для работы с файлами и большими запросами
- Доступ к Code Interpreter
- Возможность кастомизации (возможно дадут дообучить на своих данных)

И самое главное:
1. "Мы не тренируемся на ваших бизнес-данных и диалогах".
2. "Все диалоги зашифрованы во время передачи и во время хранения."


Для многих такого успокоения будет достаточно.

@ai_newz
😁6633👍27🔥6👏2
Толкаем весь AGI прогресс только ради этого!

@ai_newz
😁13817🔥12👍10🤯7🤣5😢2🤔1🤬1🐳1
Эндрю Ын вчера выкатил новый мини-курс: How Business Thinkers Can Start Building AI Plugins With Semantic Kernel

Курс длиной всего в 1 час и рассчитан на новичков - технического мяса там не ожидается. Нужно только знать Python.

Но обещают научить строить пайплайны с LLM, пользоваться памятью и писать плагины для решения бизнес-задач. Работа будет идти на базе Semantic Kernel — это SDK для языковых моделей от Microsoft, что-то похожее на уже известный нам LangChain.

Курс ведёт не хер с горы, а VP of Design and Artificial Intelligence из Microsoft.

Ссылка на курс (временно бесплатно)

@ai_newz
🔥75👍3411🌭2💯1
This media is not supported in your browser
VIEW IN TELEGRAM
Классный эксперимент с Гауссовскими Сплаттингом (я писал об этом методе на днях). Челик взял три картины, задал для них вручную разные позиции камер внутри ондной сцены и обучил сплаттинг.

В итоге при повороте камеры достигается такой интересный эффект перехода одной картины в другую. Сплатики научились отображать разные картины с различных углов.

Кстати, вот тут еще повилась имплементация рендеринга Gaussian Splatting внутри божественной библиотеки nerfstudio (подробнее про нее в этом посте).

@ai_newz
👍92🔥51🤯1411🤔2🤬1
Я, кажется, уже упоминал, что супервайжу несколько PhD студентов, которые пишут с нами научные работы. Так вот сейчас я ищу студента-магистранта из ETH, который бы писал свою магистерскую работу под моим надзором в коллаборации с одним профессором из ETH. Сегодня получил резюме от одного перспективного студента.

Вы только посмотрите какие клёвые курсы дают в магистратуре по Computer Science в ETH Zürich! На скрине – часть транскрипта студента. Те вещи, которые мне приходилось учить самому методом проб и ошибок, например Digital Humans или Shape Modelling, студентам в хороших ВУЗах уже преподают в структурированном виде.

Я уверен, что и в других вузах появляется куча новых актуальных курсов. Но даже если вы уже не студент, то в интернете можно найти такие же крутые онлайн курсы от ведущих университетов, которые можно изучать бесплатно!

@ai_newz
125🔥51👍27🤯9🌚3🤬1💯1
🔥Сегодня вышла просто гигантская модель Falcon 180B!

Иновационный Институт Технологий Абу-Даби удивляет. Их новая модель Falcon 180B теперь заняла первое место на открытом лидерборде HF. По качеству ответов она где-то между GPT-3.5 и GPT.4, примерно на уровне PaLM-2.

Параметры модели Falcon-180B:
- 180 млрд параметров! Напомню, что предыдущая самая мощная открытая модель была LLaMa-2 70B.
- Контекст 2048 токенов (но можно расширить с попощью RoPE scaling)
- Тренили 2.5 месяца на 4096 GPU на Amazon SageMaker.
- Модель видела 3.5 триллионов токенов (против 2 триллиона у LLaMa 2). То есть Falcon прочитала почти в 2 раза больше текстов.
- Multi-query attention (MQA) для скорости инференса и чтобы не раздувать количество параметров.
- Есть базовая и чатовая версии.

Забавно, что для инференса этой модели в int4 вам потребуется 8x A100 видеокарт (удачи!).

Лицензия позволяет очень ограниченное коммерческое использование.

❱❱ Веса и код доступны на HuggingFace HUB.
❱❱ Демо (жестко педалит).

@ai_newz
🔥70👍30😁1611🤔2🤬2🤩1
Сегодня на Practical ML Conf Яндекс анонсировал обновленную версию своей языковой модели - YandexGPT2. Новая модель дает более качественный ответ, чем первая версия, в 67% случаев. YandexGPT2 лучше справляется со сложными инструкциями пользователей, лучше анализирует тексты и адаптирует текст под разные стили и аудитории.

Увеличили размер модели и расширили датасет (собрали больше реальных + синтетических данных). В общем, кажется, что модель хорошо дообучили. Правда, на лидерборде HF мы эту модель не увидим, потому что бенчмарки в основном англоязычные, а YandexGPT2 все же заточена на русский язык.

YandexGPT2 уже пошла в прод - ее задеплоили в Алису в фичу "Давай придумаем" (можно запустить прямо в поиске), где можно попросить LLM сгененерить что-то креативное, будь то стих или сценарий.

@ai_newz
🔥70👍25🌭119🤣3
Обложка свеженького выпуска TIME. Сколько лиц вы знаете?

Ответ: по ссылке.

Честно сказать - включили кучу ноунеймов, большая часть которых в AI сбоку припёка.

@ai_newz
😁99👍21🔥8🤣84💯4🤔3🤯3😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Ничего необычного. Прошло 2 дня с выхода Falcon 180B и Герганов уже как ни в чем не бывало гоняет её у себя на маке M2 Ultra через LLaMa.cpp со скоростью 6.30 токенов в секунду

Это 4-битная моделька falcon-180b-chat.Q4_0.gguf отсюда.

@ai_newz
❤‍🔥124🔥70🤯11👍7🤩4😱31
Привет, друзья! А есть кто из нашего узкого комьюнити любителей AI на Мальте? Можно было бы мини-митап в бич-клубе организовать, пока я тут.

Погода все равно ветренная, и не покупаешься.

@ai_newz
🔥56🤣24👍135🐳4❤‍🔥1😁1🤬1