В Рио-де-Жанейро прошла ICLR — одна из главных мировых конференций по машинному обучению. Исследователи Яндекса представили на ней семь работ, а мы решили поговорить с Сергеем Кастрюлиным из Yandex Research, какие тренды были заметны на конференции и куда движется индустрия ИИ.
Подписывайтесь 👉 @techno_yandex
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍33❤14🔥11 5😐2
Разработчики ИИ столкнулись с проблемой: модели уже прочитали почти все публичные человеческие тексты — их доступные запасы могут закончиться после 2028 года. Поэтому нейросети начали обучать на синтетических данных, которые они сами же и генерируют. Но оказалось, что от такого обучения модели деградируют.
Чтобы проверить это, исследователи из Оксфорда, Кембриджа и Торонто провели эксперимент. Они дообучили модель на Википедии, попросили сгенерировать новые тексты, на них обучили следующую версию нейросети — и так по кругу. Уже на девятом прогоне модель в ответ на запрос про церковную архитектуру начала писать о зайцах с синими и красными хвостами. Этот эффект, когда ИИ с каждым новым циклом обучения искажает синтетические данные, назвали коллапсом модели.
Но позднее исследование раскритиковали: ведь в реальности разработчики не используют полностью синтетические тексты. Обычно их добавляют к человеческим — и тогда вероятность ошибок, приводящих к коллапсу, снижается. В 2025-м другая группа исследователей посвятила этому отдельный эксперимент. Она обнаружила, что обучение модели ускоряется в разы, если датасет на две трети состоит из обычных данных и на треть — из переписанных нейросетью. Всё потому, что сгенерированный текст чище и структурированнее, а живые данные сохраняют разнообразие языка.
Поэтому созданные человеком тексты всё ещё остаются стратегическим ресурсом. А компании активно закупают архивы газет, заключают контракты с платформами типа Reddit и нанимают экспертов для написания текстов на узкие темы.
Впрочем, сегодня развитие моделей всё меньше сводится к тому, чтобы просто скормить им больше текстов. Значительная часть прогресса приходит из обучения рассуждениям — в том числе через синтетические задачи и обучение с подкреплением (RL). Поэтому дефицит человеческих текстов остаётся проблемой, но уже не выглядит таким жёстким потолком, как казалось раньше.
Подписывайтесь 👉 @techno_yandex
Чтобы проверить это, исследователи из Оксфорда, Кембриджа и Торонто провели эксперимент. Они дообучили модель на Википедии, попросили сгенерировать новые тексты, на них обучили следующую версию нейросети — и так по кругу. Уже на девятом прогоне модель в ответ на запрос про церковную архитектуру начала писать о зайцах с синими и красными хвостами. Этот эффект, когда ИИ с каждым новым циклом обучения искажает синтетические данные, назвали коллапсом модели.
Но позднее исследование раскритиковали: ведь в реальности разработчики не используют полностью синтетические тексты. Обычно их добавляют к человеческим — и тогда вероятность ошибок, приводящих к коллапсу, снижается. В 2025-м другая группа исследователей посвятила этому отдельный эксперимент. Она обнаружила, что обучение модели ускоряется в разы, если датасет на две трети состоит из обычных данных и на треть — из переписанных нейросетью. Всё потому, что сгенерированный текст чище и структурированнее, а живые данные сохраняют разнообразие языка.
Поэтому созданные человеком тексты всё ещё остаются стратегическим ресурсом. А компании активно закупают архивы газет, заключают контракты с платформами типа Reddit и нанимают экспертов для написания текстов на узкие темы.
Впрочем, сегодня развитие моделей всё меньше сводится к тому, чтобы просто скормить им больше текстов. Значительная часть прогресса приходит из обучения рассуждениям — в том числе через синтетические задачи и обучение с подкреплением (RL). Поэтому дефицит человеческих текстов остаётся проблемой, но уже не выглядит таким жёстким потолком, как казалось раньше.
Подписывайтесь 👉 @techno_yandex
👍61 25❤13😁7
Please open Telegram to view this post
VIEW IN TELEGRAM
📚 1751 страница — столько кода требовалось в 1969-м, чтобы человек спустился на поверхность Луны.
На знаменитой фотографии инженер-программист NASA Маргарет Гамильтон стоит рядом с документацией программного обеспечения для командного и лунного модулей миссии «Аполлон-11».
Внутри бумажной башни — полный перечень информации про код: разные версии, список эмуляций, комментарии и прочие документы. Сам код до сих пор можно посмотреть на GitHub в первозданном виде, и, вопреки мифам, Гамильтон написала его не в одиночку. Над ПО работала команда из десятков разработчиков, а она была одним из руководителей. Кстати, иногда Гамильтон даже приписывают изобретение профессии «разработчика ПО», но она скорее была её популяризатором.
Подписывайтесь 👉 @techno_yandex
На знаменитой фотографии инженер-программист NASA Маргарет Гамильтон стоит рядом с документацией программного обеспечения для командного и лунного модулей миссии «Аполлон-11».
Внутри бумажной башни — полный перечень информации про код: разные версии, список эмуляций, комментарии и прочие документы. Сам код до сих пор можно посмотреть на GitHub в первозданном виде, и, вопреки мифам, Гамильтон написала его не в одиночку. Над ПО работала команда из десятков разработчиков, а она была одним из руководителей. Кстати, иногда Гамильтон даже приписывают изобретение профессии «разработчика ПО», но она скорее была её популяризатором.
Подписывайтесь 👉 @techno_yandex
❤58👍34🔥18🤯3 3👎2
Издревле на Руси знак @ обозначал…
Нет, правда. Мы случайно открыли этот факт и спешим поделиться. В Судебнике Ивана Грозного (1550 год) на первом листе можно заметить знак, идентичный современной «собаке». Вот он:
🎨 🎨 🎨 🎨 🎨 🎨 🎨
🎨 🎨 🎨 🎨 🎨 🎨 🎨
🎨 🎨 🎨 🎨 🎨 🎨 🎨
🎨 🎨 🎨 🎨 🎨 🎨 🎨
🎨 🎨 🎨 🎨 🎨 🎨 🎨
🎨 🎨 🎨 🎨 🎨 🎨 🎨
🎨 🎨 🎨 🎨 🎨 🎨 🎨
Это не случайность и далеко не единственный пример использования @ в древнерусских документах. В 16–17 веках знак встречается часто — в книгах и грамотах. В Европе того времени тоже использовали @ — изначально как сокращение от слова «амфора» (глиняный сосуд и единица объёма, равная 26 литрам). Затем к нему добавилось значение «по цене в…» или «за единицу товара». Например, в итальянских бухгалтерских книгах 17 века встречаются записи типа «5 @ масла @ 2 флорина» (то есть «5 амфор по 2 флорина»). А происходил знак, по наиболее распространённой гипотезе, от латинского предлога ad («к», «на», «до» или «при» в зависимости от контекста).
Однако наша @ пошла своим путём. Схожесть русской @ и европейской @ — графическое совпадение. Вплоть до реформ Петра Первого буквы русского алфавита имели числовые значения, а вот арабские или римские цифры не использовались. Например, А служила обозначением для 1, В — для 2 (букву Б пропускали), і обозначала 10, а Р — 100.
Украшенная А, идентичная европейской @, обозначала первый пункт — сейчас мы бы просто написали «1».
И кстати, знак @ пришёл из кириллицы. Самый ранний случай его использования можно встретить в Манассиевой хронике — памятнике средневековой болгарской литературы. В слове «аминь» вместо заглавной А (причём единственный раз во всём тексте) неизвестный писец использовал @:
😀 🥰 🦷 👓
💅 🌅 👁️ 🖱️
🧑🎤 🩷 🐦⬛ 🧌
Подписывайтесь 👉 @techno_yandex
Нет, правда. Мы случайно открыли этот факт и спешим поделиться. В Судебнике Ивана Грозного (1550 год) на первом листе можно заметить знак, идентичный современной «собаке». Вот он:
Это не случайность и далеко не единственный пример использования @ в древнерусских документах. В 16–17 веках знак встречается часто — в книгах и грамотах. В Европе того времени тоже использовали @ — изначально как сокращение от слова «амфора» (глиняный сосуд и единица объёма, равная 26 литрам). Затем к нему добавилось значение «по цене в…» или «за единицу товара». Например, в итальянских бухгалтерских книгах 17 века встречаются записи типа «5 @ масла @ 2 флорина» (то есть «5 амфор по 2 флорина»). А происходил знак, по наиболее распространённой гипотезе, от латинского предлога ad («к», «на», «до» или «при» в зависимости от контекста).
Однако наша @ пошла своим путём. Схожесть русской @ и европейской @ — графическое совпадение. Вплоть до реформ Петра Первого буквы русского алфавита имели числовые значения, а вот арабские или римские цифры не использовались. Например, А служила обозначением для 1, В — для 2 (букву Б пропускали), і обозначала 10, а Р — 100.
Украшенная А, идентичная европейской @, обозначала первый пункт — сейчас мы бы просто написали «1».
И кстати, знак @ пришёл из кириллицы. Самый ранний случай его использования можно встретить в Манассиевой хронике — памятнике средневековой болгарской литературы. В слове «аминь» вместо заглавной А (причём единственный раз во всём тексте) неизвестный писец использовал @:
Подписывайтесь 👉 @techno_yandex
Please open Telegram to view this post
VIEW IN TELEGRAM
❤109👍55🔥33🤯16😁2
May the 4th be with you!
По-английски эта фраза звучит почти как знаменитое «Да пребудет с тобой Сила», поэтому 4 мая стало Днём «Звёздных войн». Собрали цитаты инженеров и изобретателей, которые называли «Звёздные войны» источником вдохновения для реальных технологий.
Подписывайтесь 👉 @techno_yandex
По-английски эта фраза звучит почти как знаменитое «Да пребудет с тобой Сила», поэтому 4 мая стало Днём «Звёздных войн». Собрали цитаты инженеров и изобретателей, которые называли «Звёздные войны» источником вдохновения для реальных технологий.
Подписывайтесь 👉 @techno_yandex
👍58🔥35❤17 6👎3
ТЕХНО: Яндекс про технологии
Сделали инструкцию, как генерировать в Алисе AI качественные изображения с помощью проработанных промптов. Подписывайтесь 👉 @techno_yandex
Как сгенерировать видео и не сделать слоп?
Как и в кино, всё решают движения камеры, правильный ракурс и точное описание сцены. Рассказываем об основных правилах.
Подписывайтесь 👉 @techno_yandex
Как и в кино, всё решают движения камеры, правильный ракурс и точное описание сцены. Рассказываем об основных правилах.
Подписывайтесь 👉 @techno_yandex
👍36❤12🔥9😐7 3🥱2
Media is too big
VIEW IN TELEGRAM
Производитель пылесосов Dreame анонсировал модульный смартфон. Модель Aurora Nex LS1 получила магнитное крепление на задней панели, к которому можно подключить один из пяти модулей: телеобъектив, экшен-камеру, вентилятор, модуль спутниковой связи или блок с ИИ-агентом. Заодно компания показала премиальный Aurora Lux в 29 вариантах дизайна. Цены и сроки релиза не объявлены, но базовая версия Nex LS1, по слухам, обойдётся в 999 долларов.
На ТВ Станциях Яндекса появился облачный гейминг. В новом разделе «Игромир» можно играть в игры из библиотеки Steam без подключения компьютера — изображение транслируется с удалённого сервера. Поддерживаются геймпады Xbox, DualShock 4, DualSense и другие контроллеры. Пока функция доступна только на YaOS X, в дальнейшем её обещают выкатить и на другие платформы.
Spotify начал верифицировать реальных музыкантов для борьбы с ИИ-контентом. Платформа вводит бейдж «Проверено Spotify», который подтверждает, что за профилем стоит живой человек с реальной аудиторией и активностью вне сервиса. На данный момент полностью сгенерированные нейросетью артисты или ИИ-персоны не могут получить этот значок.
Американская киноакадемия ужесточила правила «Оскара» в отношении ИИ. На премию в актёрских номинациях теперь могут претендовать только роли, исполненные людьми с их согласия и указанные в официальных титрах фильма. Сценарные награды также будут доставаться исключительно работам, написанным человеком. Академия оставила за собой право запрашивать у создателей фильмов подробности о том, как именно в производстве использовались генеративные нейросети.
YouTube начал тестировать ИИ-поисковик. В строке поиска появилась новая кнопка, после нажатия на которую сервис вместо обычного списка роликов выдаёт страницу с текстовым ответом, подборкой длинных видео, коротких роликов и тематических разделов. Например, по запросу про маршрут поездки YouTube составит пошаговый план путешествия и подберёт ролики под каждый этап. Пока функция доступна только подписчикам YouTube Premium в США.
Tesla запустила серийное производство электрического грузовика Semi. Первый серийный грузовик сошёл с конвейера завода Gigafactory Nevada — мощности предприятия рассчитаны на 50 тысяч машин в год. Tesla Semi представили ещё в 2017 году и обещали запустить в производство в 2019-м, но сроки несколько раз переносили. Доступны две комплектации с запасом хода 480 и 800 километров по цене от 260 тысяч долларов.
Подписывайтесь 👉 @techno_yandex
Please open Telegram to view this post
VIEW IN TELEGRAM
❤21👍14 8🔥1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🤯12🔥7🤔6
ТЕХНО: Яндекс про технологии
Так много незнакомых слов! Спешим на помощь с расширенным выпуском Технословаря.
🟣 Согласование — направление в разработке ИИ, когда нейросетям стараются привить человеческие ценности. Другими словами: «воспитание» модели, чтобы она не вредила, не врала и понимала, чего от неё хотят, а не исполняла команды буквально.
🟣 RAG — Retrieval-Augmented Generation, генерация с внешними знаниями. Метод, когда модель перед ответом ищет информацию во внешней базе знаний, а затем пишет ответ с опорой на найденное, а не только на обучающие данные.
🟣 MoE — Mixture of Experts, смесь экспертов. Архитектура, при которой внутри одной большой нейросети есть много специализированных подсетей, и для каждого запроса активируется только их часть. Позволяет делать модели намного быстрее и экономичнее почти без потери качества.
🟣 RLHF — Reinforcement Learning from Human Feedback, обучение с подкреплением на основе человеческой обратной связи. Метод дообучения LLM, когда люди оценивают ответы нейросети, на которых та начинает лучше понимать, какой ответ правильней и больше соответствует запросу. Иногда для оценки тренируют отдельную нейросеть-«судью», которая заменяет человека в RLHF.
🟣 Дистилляция — способ упаковать навыки большой нейросети в более компактную форму. Работает так: большая модель решает задачи, а маленькая модель учится подражать её ответам. Это позволяет сделать нейросеть, которая тратит меньше ресурсов и работает быстрее, а качество ответов на большинстве задач не снижается или падает незначительно.
Подписывайтесь 👉 @techno_yandex
Подписывайтесь 👉 @techno_yandex
Please open Telegram to view this post
VIEW IN TELEGRAM
👍50❤23 14🔥6
Media is too big
VIEW IN TELEGRAM
Половина интернета — уже не люди. Разбираем в новом выпуске «Нейротрендов» конспирологическую теорию, которая на глазах превращается в реальность.
Подписывайтесь 👉 @techno_yandex
Подписывайтесь 👉 @techno_yandex
❤22👍15🔥10 7