Yandex for Developers
28.5K subscribers
1.1K photos
113 videos
1 file
791 links
Канал Яндекса о технологиях и людях, которые их создают.

События: https://events.yandex.ru/

Каналы Яндекса по стекам разработки: https://tg-me.sbs/addlist/Hrq31w2p1vUyOGZi

________________________________________________

Номер заявления в РКН: 4962241172
Download Telegram
🔎 Поиск по архивам: от расшифровки текста до расшифровки смысла

Привет, меня зовут Даша Виноградова, я руковожу универсальными применениями компьютерного зрения в Яндексе. Поиск по архивам — это сервис, который помогает людям находить сведения о родственниках и известных личностях в исторических документах.

Сейчас для пользователя всё достаточно просто: можно ввести фамилию или населённый пункт, и Поиск покажет, в каких записях упоминается человек. Пробираться через скоропись, сложный почерк и рукописные тексты не нужно, ведь их уже распознали модели.

Но пришли мы к этому удобству не сразу. Даже для сильной OCR-модели расшифровка архивных документов — весьма нетривиальная задача. Да и просто видеть слова на скане недостаточно: нужно понимать, кто именно упомянут в записи, в какой роли и как связан с другими людьми.

👳‍♂️ В этом посте я расскажу, как мы сделали ключевой шаг в развитии сервиса: перешли от распознавания текста к извлечению структуры и смысла из архивных документов. Читайте в карточках, как мы перестраивали OCR-пайплайн и строили разметку, чтобы обучать VLM-модель.

📕 А в статье на Хабре я показываю:

🔴 Какие метрики мы использовали и к каким результатам пришли

🔴 Зачем современным OCR-моделям нужны блоки

🔴 Почему нам не подошли эвристики

Подписывайтесь:
💬 @Yandex4Developers
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥76🦄4
🐾 Наши любимые петы: трекер велосипедных заездов

Что будет, если совместить увлечение горным велосипедом и навыки программирования? Из этой комбинации и родился пет-проект Паши Гуда, разработчика в Яндексе. RideTop — сервис, который позволяет профессиональным райдерам и любителям велоспорта анализировать и сравнивать заезды.

Ключевая идея — использовать для трекинга не GPS, а записи с экшен-камер. Так данные получаются точнее, потому что у кадра частота выше, чем у записи геоданных. И проблем с сигналом нет.

👳‍♂️ В карточках показываем, как всё это выглядит

📺 Сравнение заезда 1 на 1
🚴 Стартовая страница RideTop

Подписывайтесь:
💬 @Yandex4Developers
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥127🐳3
📕 Встраиваем Wi-Fi-сканер в телефон, а Алису AI — в наушники, защищаем нейросети и расшифровываем смыслы — об этом и не только в новом дайджесте Yandex for Developers

🌎 Что случилось

🔴 Отчёт об AI-технологиях в нашей системе кибербезопасности. Рассказали, какие решения на базе искусственного интеллекта мы внедрили в 2025 году, чтобы защитить инфраструктуру, пользователей и собственные нейросети

🔴 Мы провели «Рекурсию по городу». Это CTF-приключение от Яндекса, в которой мир вокруг становится кодовой базой, а участник — разработчиком. По маршруту ивента мы сделали карту IT-мест Москвы

🔴 Наши коллеги съездили на ICLR 2026 в Рио-де-Жанейро. Команда Яндекса прошла отбор и представила шесть статей в Main Track и одну работу на воркшоп I Can’t Believe It’s Not Better. По ссылке обзор трендов и инсайтов с конференции

🔴 Как работает «Сеньёрный разговор» — бот для встреч 1:1. Это возможность пообщаться с разработчиками и экспертами из Городских сервисов Яндекса, чтобы обменяться опытом и обсудить рабочие кейсы

📖 Что почитать

🔴 Как мы перепридумали голосовую активацию для наушников — и уместили ML-модель в 200 Кб. Речь про первый носимый AI-гаджет Яндекс Дропс. Железо наушников накладывает множество ограничений, которых не было в Станциях. Рассказали, как мы с ними справились

🔴 Наш коллега создал приложение-сканер для диагностики Wi-Fi-сети. Такой инструмент был необходим команде Network Operations Center, чтобы выявлять проблемы в огромной сети офисов, складов и дарксторов Яндекса. По ссылке читайте про ограничения iOS и Android, к которым пришлось адаптироваться, чтобы софт получился

🔴 Как хранить петабайты данных и выдерживать сотни тысяч запросов в секунду. Показываем, что скрыто под капотом SPQR — системы, которая помогает легко реализовать горизонтальное масштабирование PostgreSQL с помощью шардирования

🔴 От расшифровки текста к расшифровке смысла. Рассказали, как сервис Поиск по архивам развивает AI-функциональность. Внутри: метрики, OCR-модели с блоками, отказ от эвристик и польза для пользователя

🔴 Трекер велосипедных заездов. Продолжаем рассказывать про пет-проекты наших коллег. На этот раз посмотрим на RideTop, который позволяет профессиональным райдерам и любителям велоспорта анализировать и сравнивать заезды

📺 Что посмотреть

🔴 Записи с конференции Data Fest. Мы пригласили гостей в свои офисы и собрали все выступления на наших площадках в удобные плейлисты: трек Practical ML, сборный трек от сообщества ODS в Москве и сборный трек от сообщества ODS в Сербии

🔴 Чем занимается RnD-команда Яндекса? Смотрите на ютубе или в VK Видео экскурсию по инженерному центру и производству. Именно здесь мы создавали электросёдла, симовозы, зарядные шкафы и гиперкубы

Подписывайтесь:
💬 @Yandex4Developers
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍2🔥1🗿1👾1
🛎 Открыли регистрацию на Practical ML Conf 2026

Вы ждали и мы сделали — пора регистрироваться на главную конференцию по ML. На Practical ML Conf 2026 традиционно будем говорить о том, как машинное обучение влияет на бизнес и продукт и как разные практики можно применить в своей работе.

📆Встретимся 19 сентября в Москве и онлайн.

Что в программе:

🔴 Доклады независимых экспертов и разработчиков разных компаний

🔴 Keynotes, о которых расскажем позже

🔴 Мастер-классы крутых инженеров

🔴 Знакомство с сервисами Яндекса, активности и подарки от них

🔴 Дискуссии о трендах и будущем ML

В этом году у нас случился абсолютный рекорд по количеству заявок от докладчиков, и прямо сейчас среди них мы выбираем лучшие. Точно можем сказать, что программа будет очень сильной!

⏩️ Регистрируйтесь по ссылке — количество офлайн-мест ограничено, так что не откладывайте с этим.

📎 Следите за новостями Practical ML Conf в канале конференции.

Подписывайтесь:
💬 @Yandex4Developers
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥43👍2🦄1