ТЕХНО: Яндекс про технологии

🧠

Как будет развиваться ИИ?

В Рио-де-Жанейро прошла ICLR — одна из главных мировых конференций по машинному обучению. Исследователи Яндекса представили на ней семь работ, а мы решили поговорить с Сергеем Кастрюлиным из Yandex Research, какие тренды были заметны на конференции и куда движется индустрия ИИ.

Подписывайтесь 👉 @techno_yandex

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍33❤14🔥115😐2

91K views15:05

ТЕХНО: Яндекс про технологии

Разработчики ИИ столкнулись с проблемой: модели уже прочитали почти все публичные человеческие тексты — их доступные запасы могут закончиться после 2028 года. Поэтому нейросети начали обучать на синтетических данных, которые они сами же и генерируют. Но оказалось, что от такого обучения модели деградируют.

Чтобы проверить это, исследователи из Оксфорда, Кембриджа и Торонто провели эксперимент. Они дообучили модель на Википедии, попросили сгенерировать новые тексты, на них обучили следующую версию нейросети — и так по кругу. Уже на девятом прогоне модель в ответ на запрос про церковную архитектуру начала писать о зайцах с синими и красными хвостами. Этот эффект, когда ИИ с каждым новым циклом обучения искажает синтетические данные, назвали коллапсом модели.

Но позднее исследование раскритиковали: ведь в реальности разработчики не используют полностью синтетические тексты. Обычно их добавляют к человеческим — и тогда вероятность ошибок, приводящих к коллапсу, снижается. В 2025-м другая группа исследователей посвятила этому отдельный эксперимент. Она обнаружила, что обучение модели ускоряется в разы, если датасет на две трети состоит из обычных данных и на треть — из переписанных нейросетью. Всё потому, что сгенерированный текст чище и структурированнее, а живые данные сохраняют разнообразие языка.

Поэтому созданные человеком тексты всё ещё остаются стратегическим ресурсом. А компании активно закупают архивы газет, заключают контракты с платформами типа Reddit и нанимают экспертов для написания текстов на узкие темы.

Впрочем, сегодня развитие моделей всё меньше сводится к тому, чтобы просто скормить им больше текстов. Значительная часть прогресса приходит из обучения рассуждениям — в том числе через синтетические задачи и обучение с подкреплением (RL). Поэтому дефицит человеческих текстов остаётся проблемой, но уже не выглядит таким жёстким потолком, как казалось раньше.

Подписывайтесь 👉 @techno_yandex

👍6125❤13😁7

12.8K viewsedited 11:05

ТЕХНО: Яндекс про технологии

Please open Telegram to view this post

VIEW IN TELEGRAM

22👍10❤7

9.99K views12:40

ТЕХНО: Яндекс про технологии

📚 1751 страница — столько кода требовалось в 1969-м, чтобы человек спустился на поверхность Луны.

На знаменитой фотографии инженер-программист NASA Маргарет Гамильтон стоит рядом с документацией программного обеспечения для командного и лунного модулей миссии «Аполлон-11».

Внутри бумажной башни — полный перечень информации про код: разные версии, список эмуляций, комментарии и прочие документы. Сам код до сих пор можно посмотреть на GitHub в первозданном виде, и, вопреки мифам, Гамильтон написала его не в одиночку. Над ПО работала команда из десятков разработчиков, а она была одним из руководителей. Кстати, иногда Гамильтон даже приписывают изобретение профессии «разработчика ПО», но она скорее была её популяризатором.

Подписывайтесь 👉 @techno_yandex

❤58👍34🔥18🤯33👎2

11.4K views14:51

ТЕХНО: Яндекс про технологии

Издревле на Руси знак @ обозначал…

Нет, правда. Мы случайно открыли этот факт и спешим поделиться. В Судебнике Ивана Грозного (1550 год) на первом листе можно заметить знак, идентичный современной «собаке». Вот он:

🎨

Это не случайность и далеко не единственный пример использования @ в древнерусских документах. В 16–17 веках знак встречается часто — в книгах и грамотах. В Европе того времени тоже использовали @ — изначально как сокращение от слова «амфора» (глиняный сосуд и единица объёма, равная 26 литрам). Затем к нему добавилось значение «по цене в…» или «за единицу товара». Например, в итальянских бухгалтерских книгах 17 века встречаются записи типа «5 @ масла @ 2 флорина» (то есть «5 амфор по 2 флорина»). А происходил знак, по наиболее распространённой гипотезе, от латинского предлога ad («к», «на», «до» или «при» в зависимости от контекста).

Однако наша @ пошла своим путём. Схожесть русской @ и европейской @ — графическое совпадение. Вплоть до реформ Петра Первого буквы русского алфавита имели числовые значения, а вот арабские или римские цифры не использовались. Например, А служила обозначением для 1, В — для 2 (букву Б пропускали), і обозначала 10, а Р — 100.

Украшенная А, идентичная европейской @, обозначала первый пункт — сейчас мы бы просто написали «1».

И кстати, знак @ пришёл из кириллицы. Самый ранний случай его использования можно встретить в Манассиевой хронике — памятнике средневековой болгарской литературы. В слове «аминь» вместо заглавной А (причём единственный раз во всём тексте) неизвестный писец использовал @:

😀

🥰

🦷

👓

💅

🌅

👁️

🖱️

🧑‍🎤

🩷

🐦‍⬛

🧌

Подписывайтесь 👉 @techno_yandex

Please open Telegram to view this post

VIEW IN TELEGRAM

❤109👍55🔥33🤯16😁2

14.4K views09:32

ТЕХНО: Яндекс про технологии

May the 4th be with you!

По-английски эта фраза звучит почти как знаменитое «Да пребудет с тобой Сила», поэтому 4 мая стало Днём «Звёздных войн». Собрали цитаты инженеров и изобретателей, которые называли «Звёздные войны» источником вдохновения для реальных технологий.

Подписывайтесь 👉 @techno_yandex

👍58🔥35❤176👎3

12.5K views11:35

ТЕХНО: Яндекс про технологии

Сделали инструкцию, как генерировать в Алисе AI качественные изображения с помощью проработанных промптов. Подписывайтесь 👉 @techno_yandex

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

Как сгенерировать видео и не сделать слоп?

Как и в кино, всё решают движения камеры, правильный ракурс и точное описание сцены. Рассказываем об основных правилах.

Подписывайтесь 👉 @techno_yandex

👍36❤12🔥9😐73🥱2

9.85K views09:40

ТЕХНО: Яндекс про технологии

2:58

Media is too big

VIEW IN TELEGRAM

🤖

Технодайджест недели

Производитель пылесосов Dreame анонсировал модульный смартфон. Модель Aurora Nex LS1 получила магнитное крепление на задней панели, к которому можно подключить один из пяти модулей: телеобъектив, экшен-камеру, вентилятор, модуль спутниковой связи или блок с ИИ-агентом. Заодно компания показала премиальный Aurora Lux в 29 вариантах дизайна. Цены и сроки релиза не объявлены, но базовая версия Nex LS1, по слухам, обойдётся в 999 долларов.

На ТВ Станциях Яндекса появился облачный гейминг. В новом разделе «Игромир» можно играть в игры из библиотеки Steam без подключения компьютера — изображение транслируется с удалённого сервера. Поддерживаются геймпады Xbox, DualShock 4, DualSense и другие контроллеры. Пока функция доступна только на YaOS X, в дальнейшем её обещают выкатить и на другие платформы.

Spotify начал верифицировать реальных музыкантов для борьбы с ИИ-контентом. Платформа вводит бейдж «Проверено Spotify», который подтверждает, что за профилем стоит живой человек с реальной аудиторией и активностью вне сервиса. На данный момент полностью сгенерированные нейросетью артисты или ИИ-персоны не могут получить этот значок.

Американская киноакадемия ужесточила правила «Оскара» в отношении ИИ. На премию в актёрских номинациях теперь могут претендовать только роли, исполненные людьми с их согласия и указанные в официальных титрах фильма. Сценарные награды также будут доставаться исключительно работам, написанным человеком. Академия оставила за собой право запрашивать у создателей фильмов подробности о том, как именно в производстве использовались генеративные нейросети.

YouTube начал тестировать ИИ-поисковик. В строке поиска появилась новая кнопка, после нажатия на которую сервис вместо обычного списка роликов выдаёт страницу с текстовым ответом, подборкой длинных видео, коротких роликов и тематических разделов. Например, по запросу про маршрут поездки YouTube составит пошаговый план путешествия и подберёт ролики под каждый этап. Пока функция доступна только подписчикам YouTube Premium в США.

Tesla запустила серийное производство электрического грузовика Semi. Первый серийный грузовик сошёл с конвейера завода Gigafactory Nevada — мощности предприятия рассчитаны на 50 тысяч машин в год. Tesla Semi представили ещё в 2017 году и обещали запустить в производство в 2019-м, но сроки несколько раз переносили. Доступны две комплектации с запасом хода 480 и 800 километров по цене от 260 тысяч долларов.

⭐

Если у вас оформлен Telegram Premium, поддержите наш канал по ссылке

Подписывайтесь 👉 @techno_yandex

Please open Telegram to view this post

VIEW IN TELEGRAM

❤21👍148🔥1

10.5K views10:45

ТЕХНО: Яндекс про технологии

Please open Telegram to view this post

VIEW IN TELEGRAM

👍25🤯12🔥7🤔6

10.9K views10:25

ТЕХНО: Яндекс про технологии

Так много незнакомых слов! Спешим на помощь с расширенным выпуском Технословаря.

🟣

Согласование — направление в разработке ИИ, когда нейросетям стараются привить человеческие ценности. Другими словами: «воспитание» модели, чтобы она не вредила, не врала и понимала, чего от неё хотят, а не исполняла команды буквально.

🟣

RAG — Retrieval-Augmented Generation, генерация с внешними знаниями. Метод, когда модель перед ответом ищет информацию во внешней базе знаний, а затем пишет ответ с опорой на найденное, а не только на обучающие данные.

🟣

MoE — Mixture of Experts, смесь экспертов. Архитектура, при которой внутри одной большой нейросети есть много специализированных подсетей, и для каждого запроса активируется только их часть. Позволяет делать модели намного быстрее и экономичнее почти без потери качества.

🟣

RLHF — Reinforcement Learning from Human Feedback, обучение с подкреплением на основе человеческой обратной связи. Метод дообучения LLM, когда люди оценивают ответы нейросети, на которых та начинает лучше понимать, какой ответ правильней и больше соответствует запросу. Иногда для оценки тренируют отдельную нейросеть-«судью», которая заменяет человека в RLHF.

🟣

Дистилляция — способ упаковать навыки большой нейросети в более компактную форму. Работает так: большая модель решает задачи, а маленькая модель учится подражать её ответам. Это позволяет сделать нейросеть, которая тратит меньше ресурсов и работает быстрее, а качество ответов на большинстве задач не снижается или падает незначительно.

Подписывайтесь 👉 @techno_yandex

Please open Telegram to view this post

VIEW IN TELEGRAM

👍50❤2314🔥6

13.9K views11:45

ТЕХНО: Яндекс про технологии

2:00

Media is too big

VIEW IN TELEGRAM

Половина интернета — уже не люди. Разбираем в новом выпуске «Нейротрендов» конспирологическую теорию, которая на глазах превращается в реальность.

Подписывайтесь 👉 @techno_yandex

❤22👍15🔥107

42.7K viewsedited 15:05

About

Blog

Apps

Platform