Reveal the Data
27.9K subscribers
1.06K photos
40 videos
5 files
736 links
Канал Ромы Бунина про визуализацию данных, дашборды и развитие BI-систем.

Подробнее про канал, рубрики, правила и контакты — https://tg-me.sbs/revealthedata/386

Сайт и блог — https://revealthedata.com/
Download Telegram
🧐 Dashboard as a code? Dashboard as an image? Dashboard as UI-on-demand?
Недавно Tableau выложили довольно важную штуку — описание XML-схемы для воркбуков. Раньше это было по сути «чёрным ящиком» и были попытки редактировать файлы через текст, но это было приключение на ваш страх и риск. Но иногда было очень полезно, например, у меня были кейсы, когда надо было полностью перевести весь дашборд на другой язык или подставить в шаблон другой источник данных.

Теперь же есть формальная схема. И первая мысль: сейчас начнётся нормальная генерация дашбордов кодом. Вчера вечером решил попробовать, взял Codex и Claude, начал генерить через XML — и… получилась фигня 😅 Первые два скрина.

То есть формально схема есть, но просто скормить её модели → получить хороший дашборд не получилось. Более-менее что-то работает через сторонние библиотеки, но они тоже создают какую-то фигню.

Пока агенты шуршали код вышла новая Chat GPT Image 2, пошёл параллельно тестировать её. И вот здесь было интересно. Для меня это первый раз, когда image-генерация начинает быть полезной в BI-задачах. Он умеет рисовать графики по реальным данным и четко следует инструкциям, можно задавать и расположение и рефернсые стили. Набросал картинок выше. Конечно местами делает ошибки и дефолтно всё равно делает скорее фигню, но этим уже точно можно прям пользоваться, если задавать строгие инструкции и правила.

Наверное в теории можно генерировать таким образом даже интерактивные дашборды на лету, что-то похожее на world models.

Пока я тестировал GPT Image 2, Claude добавили Life Artifacts для Cowork, это ИМХО убийца Lovable и иже с ними, по-сути позволяет делать себе мини-приложения с подключением к реальным системам и ими можно делиться с коллегами. Так что скоро все бизнес-пользователи наделают себе кучу таких дашбордов и будут шарить между собой без вашего ведома )

А, ну да, а ещё позавчера выпустили Claude Design. Его тоже быстренько потестил, в целом работает примерно так же как и Claude Code/Cowork по качеству, чего-то фантастического не заметил, хотя сам дизайн как будто выглядит по-аккуратнее (возможно из-за того, что туда можно сразу подтянуть дизайн-систему из фигмы, я так и сделал). Последний скрин.

В общем вывод один — всё развивается с какой-то безумной скоростью. Что с этим делать пока не понимаю.

П.С. А вот тут Андрей Дорожный играется с разными моделями для отдельных графиков, забавно, получилчся незапланированный коллаб!
👍2217🔥10🤔1
📘 От дашборда к системе
Вышла следующая глава книги — про дизайн дашбордов.

В ней рассказывается про самые важные навыки дизайна для аналитика и основные принципы. Получилась довольно большая глава которая охватывает с одной стороны известные вещи, с другой, собирает все самое главное в одном месте.

Ну и конечно же есть пример переверстки дашборда с пошаговым применением всех принципов.
#книга #от_дашборда_к_системе
🔥4835👍9
🤖 AI в аналитике
Выложили мой доклад с конференции Матемаркетинг 2025. В нём я рассказал как аналитики используют AI для работы и показал, что уже работает, а что нет. Прошло пол года и многое уже сильно изменилось. Доклад не прям чтобы «не актуальный», но бенчмарки и подходы уже местами другие. Но посмотреть кончено все равно рекомендую, даёт хороший обзор ситуации.

👉 Посмотреть доклад: ютуб, платформа конференции (нужна бесплатная регистрация)

Всё очень быстро меняется поэтому хочу сделать две вещи: снова провести опрос про использование AI-инструментов в работе, кажется, что пора. А еще пригласить вас на конференцию Aha, которая пройдет 22 мая а Москве. На ней как раз много про AI и сложный ML в аналитике.

👉 Пройти опрос про использование инструментов (5-10 мин) Результатами опроса поделюсь в канале. Среди тех, кто заполнит форму до 17 мая, случайным образом разыграем 2 оффлайн и 3 онлайн билета на конференцию.

👉 Посмотреть программу конференции. Если не хотите ждать розыгрыша, то вот промо код RTD20 на билеты со скидкой 20%.

#выступление #конкурс
26🔥14
Reveal the Data
🤖 AI в аналитике Выложили мой доклад с конференции Матемаркетинг 2025. В нём я рассказал как аналитики используют AI для работы и показал, что уже работает, а что нет. Прошло пол года и многое уже сильно изменилось. Доклад не прям чтобы «не актуальный», но…
Спасибо всем, кто прошел опрос!

Результатами поделюсь на следующей неделе. Сам опрос закрывать не буду, хочется собрать побольше ответов. Пока прошло не так много как в прошлый раз, призываю вас уделить время! 🙏

А вот кому выпали билеты в розыгрыше! Организаторы конференции свяжутся с вами сегодня.

Оффлайн
Ele***zick
wind***air

Онлайн билеты
ed***6
nata***ko
anna***sd
9🔥3
👨‍🎓Хендбук по A/B-тестам
Мои друзья из Trisigma (платформа для A/B-тестов от Авито, прожаривал её вот тут) продолжают делать классный контент. В этот раз Искандер и команда подготовили хендбук про основы экспериментов и статистического анализ.

Если често, я всегда плохо разбирался в A/B-тестах, в работе они мне нужны были редко и как-то плотно последний раз я работал со стат. значимостью и проверкой гипотез только когда писал диссертацию и тестировал электрическую прочность вакуумных разрядников. Забавно, что тогда это не было модными A/B-экспериментами, а просто было обычной частью лабораторной работы 🤓

Я посмотрел хендбук и мне очень понравилось, что там меньше про статистику и больше про бизнес смысл и работу с метриками. Хорошие примеры и здорово описано как подходит к экспериментам в целом. Центральная предельная теорема появляется только в самом конце ) Точно будет полезен начинающим аналитикам или чтобы освежить знания.

Для того чтобы получить хендбук нужно подписаться на канал ребят через бота @trisigma_avito_bot. Такой вот беспощадный маркетинг 😈 Уверен, что ребята тестирует новую гипотезу привлечения и потом посмотрят прокрасился ли такой результат. Хотя канал у ребят на самом деле и без таких ухищрений классный и рекомендую его посмотреть.
#дружеский_пиар
36🔥6
📊 Новинки DataLens
Встретился на Aha! с ребятами из DataLens, побывал на мастер классе про Нейроаналитика и пообсуждали будущее BI. Нейроаналиитк прям классно вайбкодит кастомные визуализации, кайф. А вот как бот по данным — показалось, что не хватает контекста без внешней базы знаний. Все таки только данных не достаточно для качественного анализа, нужен и семантический слой, и описание бизнес логики. С этим ребята тоже работают, можно попробовать в бета-версии. Но кажется, что это задача более высокого уровня, чем просто BI.

Пообщавшись пришли ко мнению, что BI должен стать таким же удобным для агентов, как и для людей. Сам слой отчётности будет нужен для визуального мониторинга, а вот создание чартов и дашбордов вполне может делаться агентами. Для этого у ребят сейчас активно развивается API (коммьюнити даже сделало неофициальный mcp-сервер на его базе).

В самом инструменте за последнее время появилось много очень нужных фичей (как людям, так и агентам =). Мои наиболее ожидаемые были: сквозное оформление для полей данных (форматирование и цвета), рассылки и глобальные фильтры для дашбордов. Ребята собрали классное видео со всеми новиками в одном месте (yt, vk, rt)— очень удобно.
#datalens
28🔥14👍10😁3
Ко мне пришли ребята из сообщества Smalltech и попросили рассказать про митап по аналитике, который пройдёт на этой неделе, 28-ого числа.

Мне очень понравилась сама идея сообщества — все знают про большие компании, но на конференциях редко увидишь ребята из средних компаний или не из IT-сектора. А ведь задачи там такие же, а иногда и даже более интересные. И еще понравился набор докладов, особенно про Гемба (выход в физическую реальность), считаю, что так надо делать как можно чаще.

Участие бесплатное, оффлайн в Питере или онлайн в трансляции. Полная программа ниже:
8🔥3
Полная программа митапа Smalltech митап Vol.3. Продуктовая аналитика

Мы собрали живые ёмкие кейсы, где что-то пошло не так, пришлось изобретать, заново приоритизировать или выходить из зоны комфорта, а еще — нетипичные инструменты для работы аналитика.

1️⃣Как мы запороли A/B-тест и реанимировали его бутстрапом
Регина Кравченко, продуктовый аналитик, продукт «Ипотечный брокер», М2
Честный разбор: эксперимент не взлетел, что делать — не выкидывать, а спасать статистически. Бутстрап, метрики, подводные камни.

2️⃣Текстовые комментарии к заказам как источник инсайтов: ML для продуктовых аналитиков
Софроний Новиков, продуктовый аналитик, Петрович-Тех
Кейс извлечения гипотез из грязных текстов — с цифрами о том, что реально нашли и как приоритизировали.

3️⃣Как ИИ ускоряет работу продуктового аналитика: от гипотезы до роадмапа за 2 дня вместо 2 недель
Максим Богуславский, фаундер, Альфа-Функция
Честно: где AI реально экономит часы (генерация user stories, RICE-приоритизация, суммаризация отзывов), а где — нет. С готовыми промптами и чек-листами.

4️⃣Гемба для аналитика: как 2 часа в поле генерируют гипотезы, которые не найти в дашбордах
Алексей Борискин, системный аналитик, Техвилл
Выход за пределы экрана: какие инсайты о продукте можно получить только «на земле» и как превратить их в проверяемые гипотезы с RICE-оценкой.

5️⃣Мастер-класс по Opportunity canvas: как не тратить спринты на фичи, которые никому не нужны
Анастасия Московкина, системный аналитик, ИнфоТеКС
Участники за 40 минут разберут пример использования инструмента — чтобы после встречи приложить к собственным задачам, а не просто слушать.

Итого: огромная программа, потому что каждый доклад — действительно золото для практического применения. Регистрироваться на онлайн или офлайн — по ссылке. Если планируете прийти, зарегистрируйтесь заранее, пожалуйста: во спасение своей кармы и души организаторов :)
Please open Telegram to view this post
VIEW IN TELEGRAM
12🔥7
🗒 Результаты опроса про AI
Сравнил, как аналитики пользовались AI в ноябре 2025 и в мае 2026. Между замерами примерно полгода, в 2025 было 274 ответа, в 2026 пока 77 (если вы хотите пройти опрос и помочь коммьюнити — присоединяйтесь, 5-10 минут). Я бы смотрел не на точные доли до процента, но направления и общие сдвиги.

Основные выводы: чат-модели стали почти повседневной рабочей привычкой, а код-ассистенты резко перешли из «поиграться» в регулярное использование (90% используют хотя бы раз в неделю). А ежедневное использование — с 47% до 71%.

Самый резкий скачок — агенты для кодинга (Codex, Claude Code). Регулярное использование: 13% → 46%. Ежедневное использование: 5% → 27%.

Из инструментов резко вырос Claude, что не мудрено со всем хайпом вокруг него. Регулярное использование: 11% → 42%. Но ChatGPT остаётся стабильным лидером.

Автономные агенты (OpenClaw и т.п.) проявились скорее как что-то интересное и новое — 44% ответили, что их компания делает автономных агентов для бизнес-процессов. Но если смотреть на использование и понимание концептов, то картина не такая радужная. То есть агенты явно вошли в повестку, но до массового применения ещё далеко.

👉Потыкать дашборд 👈

Дашборд в этот раз уже сделал полностью с помощью Codex — это оказалось быстрее и проще, чем ковыряться с Tableau. Потратил где-то часа 2 на детальное редактирование и проверку, но зато получилось сделать эксперимент про который давно думал — слоуп-бар-чарты, которые показывают изменения между двумя периодами. Как вам такая визуализация?
#опрос
🔥2810👍6
🤖 Self-service аналитика в Anthropic
Аналитическая команда из Anthropic рассказала в статье как они делают аналитику на базе Claude. Получилась крепкая статья, где расписаны все основные концепты, которые нужны чтобы агенты меньше тупили при работе с данными.

Забавно, что начинают они с того, что вот при работе с кодом всё хорошо — там ведут документацию, есть история изменений и часто есть только один верный результат. А вот в аналитике данные не описаны, нет точной проверки результата и просто бардак. Сложно с ними не согласиться, но думаю, что с кодом всё примерно так же на самом деле 😅

Поэтому основные действия направлены именно на улучшение контекста и качества описания данных. Так как именно это даёт наибольший буст (как и для вообще любых агентских задач, а не только для данных).

Они разделяют эту работу на 4 уровня:
— Data foundations
— Sources of truth
— Skills
— Validation

С первыми двумя всё довольно скучно и стандартно: внедряйте процессы data governance, стройте семантический слой и linage, сделайте набор "золотых" курируемых таблиц (вообще были бы такие источники и агенты бы были не нужны 🤣), с которыми будет в первую очередь работать агент

И делать это желательно руками, а не агентами:
One idea we tried that didn’t work: bootstrapping the semantic layer by having an LLM auto-generate metric definitions from raw tables and query logs. It produced plausible-looking definitions that encoded the very ambiguities we were trying to eliminate, and was net-negative on our evals versus a smaller, human-curated layer.


Из интересных идей: можно подсунуть в контекст SQL запросы из дашбордов и предыдущих исследований. И ещё важно скармливать не только исторический курируемый бизнес контекст (аля вики с процессами), но и текущий операционный (чаты, роадмапы и таски).

В общем никуда от скучной работы по причесыванию документации и данных не деться. А вот со скилами и валидацией в статье для меня были новые идеи.

Скиллы становятся такой же важной сущностью как и код для ETL / дашборды / документация. Это ещё одна сущность, которая должна обновляться и при обновлении схемы данных, и при изменении бизнес-процессов. Если этим не заниматься, то быстро происходит падение качества:
We watched our offline accuracy drift from ~95% at launch to ~65% over a month before we treated this as an engineering problem.


То есть за скиллами тоже надо будет следить и настраивать все инженерные практики, как и для кода. А улучшать их можно через «A/Б-тесты» и эксперименты. Microsoft даже уже сделали open-source проект заточенный на это.

Для правильной же валидации приходиться делать слепки данных, которые использовались при создании скилла. Чтобы можно было сравнивать яблоки с яблоками при его изменении, иначе будет невозможно иттеративно их улучшать. И это прям ещё один большой слой по работе с базой — как это делать если база большая, куда всё это складывать и т.п.

И ещё одна нерешенная задача это silent failure — как искать случаи когда модель дала ответ, но пользователь не понял, что он плохой или просто не сообщил про это. Получается, что очень сложно отслеживать реальное качество и непонятно насколько 95% evals траслируется в реальное качество.

Жалко, что совсем ничего не рассказали про конечный опыт пользователя и UI: как делают дашборды и чаты, как они разделяют доступ по доменам и т.п. Просто голый Claude чат тут не подойдет и это тоже важная часть, которую нужно научиться строить для полноценной системы.

В общем общий вывод — чтобы аналитика на базе LLM работала надо делать много процессов и внедрять инженерные практики. Чооооорт 😈
55👍27🔥7😁7
Контекст для агентов
Понятно, что для эффективной работы моделям нужен контекст. Даже лучшие модели не могут ответить на простой вопрос, если им его не дать. Нашёл пример, где и Fable, и ChatGPT 5.5 довольно неуклюже отвечают на вопрос просто потому, что не знают нужного контекста и не могут его додумать. А вектор выдал такой ответ как самый частотное, но что не значит самый логичный. (Скриншот из Fable сделан вчера, пока басня ещё не перестала быть былью, простите 😅)

Но где этот контекст хранить? Я выделял бы три подхода.

1. Текстовые файлы
Самый простой вариант — хранить текстом в .md, json, jaml и т.п. Файлы могут лежать локально, в git-e или внутри инструментов вроде dbt и каталогов данных. Дальше агент либо ищет нужную информацию по ключевым словам с помощью grep, либо переходит по ссылкам между документами. Если используются внешние тулы, подтягиваться через API или MCP.

На удивление, этот подход работает очень хорошо. Особенно если задача относительно небольшая.

2. RAG, векторные и графовые базы
Когда документов становится много (условно 1000+), обычного поиска уже недостаточно. Тут появляются векторные базы и RAG. Вместо поиска по словам система ищет смысловое сходство, что может быть полезно в сложных задачах и мултиязычности. Графовые же базы решают задачу связей и смыслов. Они позволяют хранить линки между объектами: метриками, таблицами, дашбордами, бизнес-процессами, что даёт дополнительный буст в понимании для агента.

Такие решения масштабируются намного лучше, но требуют больше инфраструктуры и поддержки. Мне пока сложно представить где это было бы нужно именно для аналитики. Если делать company brain для большой организации, то наверное может быть полезно. Но в рамках одного домена данных, мне кажется, что в такое не упереться.

3. MCP и сырые данные
Третий подход — вообще не хранить контекст как-то специально, а получать его напрямую из сырой информации через MCP и конекторы. В этом случае агент может сам сходить в Jira, Confluence, CRM или BI-систему и получить информацию из того, что найдет.

Подход максимально универсальный, но дает нестабильные результаты, так как нет курируемого слоя контекста, а значит можно наткнуться на ошибки и устаревшие данные. В общем быстро, но надёжно. Хотя даже так, часто лучше, чем без контекста совсем.

Как управлять
Дальше встаёт вопрос как его формировать и им управлять. Вокруг этого нужно и какой-то UI и процессы и это прям большой пласт работы, уверен, что там будет лежать много пользы и задач для аналитиков в будущем и пока прям хорошего решения я не видел.

Приорал от того как задачу с контекстом решили ребята из DataLens. Они сделали это через скрытую вкладку дашборда. По сути аналитик создает отдельный таб, который содержит описание метрик, бизнес-правил, заранее отобранные графики и данные. А при каждом запросе бизнес-пользователя боту, это всё передается в контекстное окно модели. С одной стороны — это прям костыль-костыль. С другой — это красивое решение Аналитик может самостоятельно управлять знаниями бота без RAG и отдельного нового интерфейса, просто меняя содержимое вкладки. Для небольших задач будет работать отлично, хотя конечно плохо, что это привязанно только к одному дашборду.

Послушать их первых уст про то как это работает можно будет на вебинаре 16-ого июня, Паша Дубинин как раз расскажет про это, должно быть интересно.

Что использую сам
Мы у себя в команде, именно для внутренних дашбордов, используем первый вариант — локальные .md-файлы. На них работают и внутренние дашборды, и агенты, которые отвечают на вопросы команды. И, если честно, пока не вижу причин усложнять решение. Если у вас система из 5–7 дашбордов и десятка таблиц, то десяток .md, немного структуры и локальные HTML-дашборды для наших задач сейчас работают отлично.

Даже дефолтный Data Analytics plugin для Codex работает очень неплохо. Даня Шевцов тоже недавно рассказывал про похожий подход на воркшопе про агентскую аналитику, вот запись.

В общем думаю, что следующий шаг для BI — это BI as .md files!

P.S. Ну и достаем поп-корн и ждём, что будет с Fable 🤪
26🔥13👍6😁2