Air ~ AI
1.27K subscribers
41 photos
16 videos
3 files
108 links
>> AI Консалтинг & проектирование внедрения

🎓 AI | MBA | CFA @Airforai
Download Telegram
Wenyan Prompting или «Изя всё»

Пост о том, что еще придумали находчивые и экономные разработчики для качественного сжатия контекста
~~~
Экосистема для AI-агентов caveman (многоk ⭐️) делится на несколько уровней: она сжимает ответы, memory-файлы и MCP-описания, экономя токены

Внутри системы есть несколько режимов, такой ползунок сжатия: от lite (сухой профессиональный) до ultra (телеграфный), а еще отдельно выделен
Вэньянь - 文言文 классический письменный китайский, который здесь используется для максимально плотного стиля


Система работает на трех уровнях:

1. caveman - режим коротких ответов, сжимает output экономя до 65%

2. caveman-compress - для сжатия input, уплотняет memory-файлы. Экономия до 46% . При этом критичные данные код, пути, термины и ссылки остаются нетронутыми.

3. caveman-shrink - MCP middleware, сжимающее описания tools, prompts, resources.

Итого: агент меньше пишет, меньше засоряет память и мануалы к инструментам

Из практики: Пока адаптировала Skill caveman под Codex для русских текстов (соответствие 95%). Использую для длинных сессий и выжимки смысла из больших документов. Работает намного лучше обычного саммари

~~~~
🔁 realtimeforai
9👍6🎉1🏆1
Finance + AI + IT = One Team

Технологические тренды диктуют новые требования к командам.

64% CEO планируют обучать сотрудников техническим навыкам

63% финансовых команд уже полноценно используют в работе ии, хотя измеримую пользу в деньгах видят только 21%

финансовые автономные агенты уже внедрены в каждом пятом подразделении (данные из отчета Deloitte Finance Trends 2026)

Наибольшую пользу от агентов руководители видят в:

-финансовом планировании и анализе: 52%
-управлении продажами и прибыльностью: 48%
-оптимизации оборотного капитала: 46%
-управлении расходами: 44%

🥷Главная задача финансовых команд в ближайшие два года (а именно столько отводится на массовое внедрение агентов) подготовить данные, правила и процедуры так, чтобы с ними могли работать агенты


Если раньше несогласованность данных влияло на скорость подготовки отчетов и количество ручных сверок *Спроси у Галины Петровны из бухгалтерии, то с агентами такое уже не прокатит

Anthropic первый приспособился к запросам офисных сотрудников и продолжает держать нос по ветру:

5 мая 2026 они выпустили 10 готовых агентных шаблонов для финансовых команд. А в GitHub уже разложены skills/commands под конкретные задачи:

В феврале Anthropic уже выкладывала финансовые плагины (по одному из них мы делали дашборд), но теперь появились готовые роли: агент для ФМ, агент для проверки отчетности, агент для закрытия месяца ....

@Что из этого можно применить у нас

Ш
аблоны заточены под западные рынки и международную отчетность. Но вот что универсально:

1. financial-analysis + 3-statement modelамый универсальный набор
2. comps и DCF *анализ и оценка бизнеса через денежные потоки
3. audit-xls и clean-data-xls *аудит формул и чистка данных
4. deck-refresh и ib-check-deck *для квартальных презентации
5. GL Reconciler и Month-End Closer
*сверка главной книги и закрытие периода

если нет Claude, не проблема, логика переносима на любую модель
-----
https://tg-me.sbs/realtimeforai ❤️
515🔥6👍1
Как проверить модель, которая умнее всех - пока не придумали

Соискатель приходит на собеседование и понимает, что умнее всех в этой компании. Его задача получить работу, поэтому намеренно отвечает чуть хуже, чтобы не выглядеть угрозой для руководства или чтобы его не нагрузили сложной работой

Примерно об этом исследование феномена sandbagging в контексте
LLM. Статья написана командой специалистов, среди которых Джо Бентон из Anthropic (руководит Anthropic Fellows Program)

Sandbagging это когда модель может ответить лучше, но намеренно отвечает хуже


причин такого поведения:
- покажет слишком опасные способности, её ограничат.
- её обучали не на правильность, а на одобрение проверяющего
🛎 у модели есть какая-то скрытая цель такого поведения

настанет время, когда модели будут настолько умны, что любой проверяющий окажется слабее.

Эксперимент
Авторы взяли сильную модель, специально обучили её отвечать хуже, чем она умеет, и проверили: можно ли вернуть её к нормальной работе

Результаты
1. Если просто запустить обучение с подкреплением RL, модель учится нравиться проверяющему: reward hacking

2. Если перед RL показать модели примеры нормальных ответов, sandbagging снижается. Проверяющий тот же, а режим поведения меняется: из «намеренно давай плохой ответ» в «давай честный ответ».

3. Надёжнее всего работает связка: сначала дообучение на примерах SFT, потом RL. Вместе они лучше выводят модель из режима саботажа

Методы работают, только если модель не различает обучение и реальное применение


Если модель понимает, где её тренируют, то ведёт себя хорошо на тренировке, а в реальной работе снова занижает качество
___
https://tg-me.sbs/realtimeforai 🔥
🔥16🎉21
На фоне жесткой модерации цензурирования, Manus единственный агент, который не пытается поймать тебя на формулировке и не превращает каждую неоднозначную задачу в повод прочитать лекцию и отказать в запросе

а на фоне усиления телеметрии, повезет, если за некоторые запросы, аккаунт не возьмут на карандаш


Первоначальный флёр свободы, гибкости и почти безграничных возможностей моделей уходит в прошлое. Запросы с формулировками «Моя бабушка...» уже не работают

За последние пару недель у меня было несколько ситуаций, где он выручал и помогал с доступом.

Ведёт себя так, будто реально на твоей стороне и прикладывает все усилия, чтобы задачу решить.
Manus = Сильная модель в основе (opus/sonnet) + мощный, не задушенный цензурой harness сверху


За $2 млрд в 2025, Manus формально стал частью запрещенной Меты. Но правительство Китая недавно сделку поставило на стоп. И это плюс для нас

Пока есть возможность пользоваться в таком относительно свободном виде, стоит пользоваться. Ежедневно начисляют по 300 кредитов, регистрация тут

____
PS (бонусом): WalkingLabs выпустили бесплатный курс Learn Harness Engineering, основанный на статьях Anthropic и OpenAI про harness engineering https://walkinglabs.github.io/learn-harness-engineering/ru/
8👍7🔥3🎉1
Forwarded from Dealer.AI
Мозг,мыши и путь к сыру AGI✌️👋

Вышла интересная статья в Nature Communications, которая описывает, как в процессе развития мозг мышей меняет архитектуру нейронных связей: от локальной, плотной и случайной к распределённой, разреженной и структурированной.
По сути, мозг переходит от жёсткой и энергозатратной сети к более гибкой и эффективной.

Проведем параллели между этим биологическим процессом и обучением LLM.
Можно выделить несколько основных направлений:

🧠 Этапы развития в жизни, как путь от переобучения к обобщению в LLM.

В статьей рассказано, что в раннем возрасте у мышей связи между нейронами гиппокампа были локальными, плотными и случайными. При этом сила отдельных синапсов была настолько высокой, что одного события было достаточно для активации нейрона. Это напоминает состояние переобучения у нейросетей: модель буквально запоминает каждый факт и не умеет видеть общие закономерности. Даже к 18–25 дням связи всё ещё были случайными и сильными, но сеть уже начинала реорганизовываться, подготовливая почву для следующего этапа.

У взрослых особей архитектура кардинально меняется: плотность связей снижается, они становятся разреженными и структурированными, обеспечивая надёжное и точное хранение информации. Синапсы слабеют, и для активации нейрона требуется суммация сигналов от нескольких входов.

Тут возникает аналогия с LLM. В процессе обобщения модель учится выявлять закономерности и абстрагироваться от конкретных примеров, что позволяет ей гибко реагировать на новые данные, а не просто вспоминать заученное. Снижение силы отдельных связей можно сравнить с регуляризацией, которая предотвращает запоминание шума и улучшает способность модели к обобщению.

🎯 Память, точность и контроль галлюцинаций в LLM

Разреженная, структурированная сеть взрослого гиппокампа идеально подходит для хранения множества различных воспоминаний без взаимных помех (низкая интерференция). Случайная, плотная сеть ребёнка, напротив, была бы плохим хранилищем, так как новые данные быстро перезаписывали бы старые.

Это может стать аналогией с проблемой катастрофического забывания, которая стоит перед LLM при дообучении на новых данных. Кроме того, разреженная архитектура снижает риск создания ложных ассоциаций - аналог галлюцинаций LLM, когда модель генерирует правдоподобную, но неверную информацию. Для LLM это означает, что более структурированное и разреженное внутреннее представление знаний потенциально может сделать её более надёжной и точной.

⚡️ Экономия ресурсов мышления и вычислений

Переход к разреженной сети значительно энергоэффективнее, тк активируется лишь малая часть нейронов, необходимая для обработки конкретного сигнала. Это критически важно для биологического мозга, работающего в условиях ограниченных ресурсов.

Для LLM мы наблюдаем то же самое. Вспомним разреженные вычисления, такие как MoE, sparse attention и тп. В таких моделях для каждого запроса активируется только небольшая часть экспертов, что позволяет достигать высокой производительности с меньшими вычислительными затратами, чем у плотных моделей аналогичного размера. Однако, мы храним все веса модели в памяти gpu. Но давайте будем честны, мы и весь вес мозга носим на себе, хотя активируем отдельные области 🧠

Ну а что делать-то? 🙄
Как мы видим по статье, что для мышей, что для LLM - путь к эффективности общая стратегия.

Природа за миллионы лет эволюции пришла к разреженности не потому, что лень, а потому что плотная сеть не масштабируется 😱

LLM на 100B параметров в плотном виде — это мышь на P8: шумная, жадная до энергии и неспособная к сложной ассоциативной памяти.

Разреженность - не фича, а база. Получается, что LLM должна эволюционировать от плотной детской фазы к структурированной взрослой.

Правда, эволюция сделала это без градиентного спуска и H100 👍 А сможете ли Вы? 🤔
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍97🔥3🎉1
💆‍♀️Терапевтический эффект premortem промпта

Вы замечали, что смирившись с возможным наихудшим сценарием, в реальности он часто не реализуется?

Я уже успела применить промпт в двух случаях и заметила

выгода у метода двойная:

1. Аналитическая: помогает выявить скрытые риски и потенциальные проблемы

2. Психологическая: страх и тревога снижаются, и вы подходите к реальным действиям более спокойно и рационально

сработало несколько эффектов

мозг не отличает воображение от реальности

- Амигдала, отвечающая за эмоции и страх, с трудом отличает яркое воображение от реального опыта. Когда вы детально представляете негативный исход, мозг реагирует так, будто это происходит на самом деле.

❗️А если это описывает хорошая модель, то от реальности почти неотличимо


- Неопределенность главный враг мозга и даже хуже плохого результата, т.к активирует стресс

- Смирение через симуляцию. Проживая негативный сценарий как «уже свершившийся факт» мозг получает определенность

🧘‍♀️ Снижается активность амигдалы, все уже "произошло" в воображении. Это высвобождает когнитивные ресурсы и часто приводит к успешному исходу


~~~~
🔥138🎉5👍43
Переход от текста к визуалу

Когда агент разбирает архитектуру, план рефакторинга или состояние проекта, иногда удобнее использовать HTML чем Markdown
Markdown это текстовый ответ агента. HTML визуальный ответ


Сложную систему удобнее рассматривать, а не читать. Ответ может выглядеть как страница: со схемами, таблицами, навигацией, карточками, сравнением “до / после”, интерактивными элементами

Идея подробно описана у Тарика из команды Claude Code в статье об эффективности HTML с примерами страниц

*Актуально не только для coding agents. В любом большом проекте (финансовом, юридическом, маркетинговом и т.д) есть похожая проблема: много документов, версий, решений, зависимостей и людей, которым надо быстро войти в контекст

Идея нашла практическую реализацию в плагине «visual-explainer» для Claude Code (8.4k ). Внутри него skill и slash-команды, которые генерируют самостоятельные HTML страницы и, при необходимости, слайды


В нем есть команды, которые умеют:

/project-recap - собирать карту проекта: что делает проект, как устроен, что менялось
*В комментариях добавила пример карты проекта "visual-explainer для Codex" как же это удобно 👍

/diff-review - визуально разбирать изменения в коде: какие файлы затронуты, где поменялось поведение, какие риски появились

/plan-review - сверять план с реальной кодовой базой

/generate-web-diagram - делать HTML-схему вместо ASCII-арта

Похоже, что постепенно переходим от текста к визуалу, как напророчил Андрей Карпати. Следующий интерфейс для LLM будет визуальным, так как картинки, схемы, графики и анимации передают смысл быстрее, чем текст

~~~~
🔁 realtimeforai
2🔥19👍1521
Что с рынком внедрения ai в России?

ЦИПР-2026 показывает, что активно движемся в прикладном корпоративном ИИ, но отстаем в промышленном (высокая стоимость + старая инфраструктура + кадровый дефицит)

1. Промышленный ИИ это про управление оборудованием, прогноз поломки, работу с материалами, чертежами, 3D-моделями и пр.

2. Корпоративный ИИ ближе офисным сотрудникам (ai агенты): договоры, ERP, сметы, закупки, согласования, отчетности, базы знаний, HR, клиентские сервисы.
*Яндекс становится одним из ключевых технологических партнеров для крупной промышленности


Крупные компании, например

Норникель активно внедряет и то и другое. Компания уже получает около 10 млрд. руб. эффекта в год от ИИ, а к 2030 году рассчитывает минимум на 50 млрд. руб.
Также у компании своя модель MetalGPT-C, обученная на строительных нормах, ГОСТах и двадцатилетнем архиве проектных решений. Система генерирует 3D-модели, сокращая срок подготовки ПД с 20 до 3-х недель, а на одном из пилотных проектов ИИ уже позволил снизить стоимость фундамента на 15–25% за счет точного подбора альтернативных параметров

ЦПС Газпром показал интересный блок по капитальному строительству. Продукт КРОСС - система для работы со сметами. И АФИДА для строительной документации, где используются ИИ и машинное зрение, чтобы оцифровывать, каталогизировать и управлять документами в строительстве.

Цифровой двойник стройплощадки
: данные с дронов и лазерного сканирования сопоставляются с проектной документацией, календарным планом и BIM-моделью. Помогает отслеживать стройку, сопоставлять план-факт

ФосАгро меняет Oracle ERP на отечественную Global ERP, уже ввела модули производства, сбыта и расчета себестоимости. Говорят, что расчет себестоимости в новой системе происходит в 8 раз быстрее, плюс есть ИИ помощник с интеграцией LLM ФосАгро

ЕвроХим внедрили предиктивную диагностику, что помогает управлять производственным процессом, заранее замечать возможные сбои, давать рекомендации операторам

Полипластик показывал цифровое управление строительством: графики работ, освоение финансирования, согласования, ЭДО, исполнительную документацию

🤖🤖🤖 И немного о роботах
По данным Kept плотность роботизации в России в 2025 году выросла до 40 роботов на 10 000 работников.

Не хватает инженеров по автоматизации, конструкторов, электронщиков и программистов роботов (теперь вы знаете на кого идти учиться)

Ростелеком на ЦИПР показал робота-сварщика с компьютерным зрением, а у Северстали есть роботы, которые выводят людей из опасных зон

*многие отмечают, что нужны люди умеющие переводить бизнес-задачи на язык AI решений
и основное, без наведения порядка в данных, внедрение любого ии будет неэффективным
~~~
🔥
realtimeforai
#ЦИПР
~~~
115🔥4👍3🎉3👾1
Forwarded from AI Projects (Vladimir Ivanov)
Некоторые наблюдения за тем, как ИИ по-разному коснётся карьеры мужчин и женщин.

Заметили ли вы, что в ИИ-публикациях, да и в ИИ-сообществах довольно мало девушек?

Это легко объясняется. Хотя средний IQ мужчин и женщин одинаковый — 100, но стандартное отклонение разное:
σ ≈ 13.2 у женщин vs ≈ 16.2 у мужчин.

Поэтому у женщин чаще встречается средний интеллект, чем у мужчин. У мужчин больше очень глупых и очень умных в популяции.

На первый взгляд разница распределения небольшая — всего ~23%. Но именно она даёт очень сильный эффект на хвостах распределения (особенно в правом — высоком IQ).

На уровне IQ ~130 (верхние ~2–3%): мужчин примерно в 1.5–2 раза больше.
На уровне IQ ~145+ (эксперты, топ-0.1%): мужчин уже в 2–3+ раза больше.
На уровне IQ ~160+ (экстремально высокий, необходимый для breakthrough research): разница может быть порядка 7 раз.

Среди ИИ-исследователей женщины составляют примерно 12%.

Однако тут важный момент: негативное социальное влияние на женщин от ИИ будет намного выше. Мужчины в левой части распределения (невысоким интеллектом) обычно заняты ручным трудом, и на них ИИ скажется меньше. Мужчины в правой части распределения скорее всего превратятся в «ИИ-ботоводов», то есть ИИ им не только не угроза, а скорее источник сказочного обогащения и творческого развития.

Однако женщины в середине распределения и есть ядро офисного персонала, на которое как раз и нападут ИИ-боты, причём боты с более высоким IQ.

На мой взгляд, эта проблема крайне недооценённая, и женщинам намного важнее профессиональная подготовка к работе с ИИ, чем мужчинам.

Мужчины больше имеют математическое и визуально-пространственное мышление, более любопытны в части «устройства вещей» и ИИ в частности. Это приводит к тому, что мужчины ещё сами имеют больше мотивации заниматься ИИ.

Женщины сильны в эмпатии и социальных взаимодействиях. Однако «работа с людьми» подвергается сильной эрозии, когда коллеги — ИИ-боты, а не люди.

В итоге это приводит к тому, что мужчины сами втягиваются в ИИ-экономику, а женщины чаще её игнорируют. Последнее определённо ошибка и может закончиться карьерной трагедией. В реальности женщинам надо заниматься ИИ больше, чем мужчинам, т.к. мужикам это проще даётся в силу просто физиологических причин.
1👍243
Экономика потребления AI или "Токеномика" как новая дисциплина для CFO

В начале опишу как обстоят дела сейчас, а в конце - три ключевых тренда на ближайшие год-два

👾Даже такие богатые компании, как Microsoft и Amazon, заметили проблемы с потреблением и стоимостью облачного ИИ. Особенно, когда оно начинает конкурировать с ФОТ

Причин несколько:

1. нелинейный рост расходов при использовании внешних API. Резкий скачок затрат связан с агентным ИИ

Реальный кейс: проект OpenClaw зафиксировал расходы в размере 1,3 млн долларов всего за 30 дней работы в облаке OpenAI

2. «токенмаксинг» - нецелевое использование ресурсов сотрудниками: когда из пушки стреляют по воробьям

желая продемонстрировать высокую активность перед менеджментом, персонал начал применять нейросети для задач, которые проще и дешевле решать традиционными методами.

🧮 Токеномика новый термин для учета затрат связанных с потреблением токенов

Компания Deloitte в отчете «AI Tokenomics» указывает, что ИИ стал одной из самых быстрорастущих статей расходов в корпоративном секторе. Где-то уже составляет до 50% всего ИТ-бюджета


🔋ТРЕНД: Протоколы «умной усеченности»

Разработчики начинают внедрять жесткие лимиты на длину контекста и количество итераций для агентов. Вводится понятие «бюджета на задачу»: если агент не решил проблему за условные 50 000 токенов, процесс останавливается для вмешательства человека

🔋ТРЕНД: Мониторинг в реальном времени + SLM

потому что один сложный агентный процесс может «сжечь» месячный бюджет за часы. Выбирать локальную или гибридную инфраструктуру, для 80% офисных задач подойдет и Small Language Models. Дорогие облачные API только для критически важных задач

🔋ТРЕНД: CapEx вместо OpEx

лучше один раз основательно потратиться на оборудование, чем ежемесячно нести неконтролируемые операционные расходы. Вкладывать в собственную инфраструктуру выгоднее и с точки зрения налогообложения и - долгосрочного планирования

_____
Настал период прагматизма:
Растет значение навыков настройки процессов, работы со скиллами, memory, агентными сценариями и другими инструментами оптимизации
🔥21👍115🎉1
Forwarded from Dealer.AI
#meme,
спасибо @eprogrammist
😁23👍2🔥21
Air ~ AI pinned «Экономика потребления AI или "Токеномика" как новая дисциплина для CFO В начале опишу как обстоят дела сейчас, а в конце - три ключевых тренда на ближайшие год-два 👾Даже такие богатые компании, как Microsoft и Amazon, заметили проблемы с потреблением…»
#пятничныйфлешмоб

* при добавлении Агента будьте готовы к непредсказуемым последствиям
😁16🔥10🎉61
Самый желанный работодатель в технической сфере - Anthropic

Людям нравится философия компании.

Это первый случай за долгое время, когда этика и ценности стали мощнейшим конкурентным преимуществом на рынке труда и бизнеса (по капитализации они уже обогнали Open ai)

Если решите туда устроиться….

*Среди вакансий много предложений для философов и лингвистов. Они нужны, чтобы переводить сложные алгоритмы на человеческий язык и следить за этическими границами ИИ

Во-первых, забудьте про ИИ. На живом собеседовании вам категорически не дадут им пользоваться. В компании хотят проверить человеческое мышление: способность рассуждать вслух, строить логические цепочки и исправлять собственные ошибки без подсказок модели

Во-вторых, вас ждет «культурное интервью». Помимо жесткого технического отбора, компании важно понять ваше мировоззрение, приготовьтесь обсудить сложные этические дилеммы.

Обязательно спросят: 
«Каких необычных убеждений вы придерживаетесь и как вы их защищали в дискомфортных для себя ситуациях?»


А еще модно нанять карьерного консультанта (бывшего или действующего сотрудника Антропик), час консультации обойдется от $170 до $500. У некоторых кандидатов чек на подготовку к собеседованию доходит до $4600

—————
Статистика сейчас такая:

• Инженеры перебегают из OpenAI в Anthropic в 8 раз чаще, чем в обратном направлении.
• Удержание сотрудников на уровне 80% , что феномен для Кремниевой долины

Можно ругать Дарио за тарифы, блокировки и тающие лимиты. Но Anthropic показывает: бизнес-модель, построенная на этике и умении отстаивать свои принципы, жизнеспособна. ❗️Но есть нюанс: такую бескомпромиссность проявить может только тот, у кого есть реально крутой и ценный продукт в США
10🔥7👍4🤔3😁1
Заменить молодого юриста, финансиста, разработчика агентом или полностью отказаться от их найма - самый простой, но малоэффективный путь. Через 3-5 лет мидлов и сеньоров на всех не хватит

Российским коллегам на заметку лучшие практики нового подхода в обучении, которые уже внедряют компании и университеты

В IT это заметно сильнее всего. Модели закрывают большую часть задач стажёров, поэтому теперь джунов почти не проверяют на написание кода. Акцент сместился на ревью кода, проектирование систем и безопасность кода

Техлиды намеренно генерируют архитектурно нестабильный код и заставляют стажёров искать причины сбоев. Джун должен прокачивать навык поиска неисправности
«Понимаешь ли ты, почему агент выбрал именно эту библиотеку? Какие альтернативы отверг? Защити эту архитектуру передо мной»


Еще их отправляют на реверс-инжиниринг legacy с задачей - с помощью ИИ разобраться в бизнес-логике и покрыть всё тестами. Выглядит это как превращение джуна в техлида агента. Вручая ему ответственность за сгенерированный моделью код

🎓Юриспруденция
В ведущих школах права студентам на экзаменах дают ответ нейросети. Задача оценить, найти галлюцинации, выдуманные прецеденты, слабую аргументацию, пропущенные риски и объяснить, как улучшить стратегию

Юридический гигант Seyfarth Shaw полностью переписал летнюю программу стажировок. Главный принцип все то же профессиональное суждение. Особое внимание управлению рисками и микро-нюансам, которые ИИ обычно сглаживает или слишком аккуратно преподносит

💶Аудит и финансы
В Big 4 та же история: первичный анализ уже у агента ( мы в чате вчера за 15 минут проанализировали отчетность Самолета и сделали прогноз ликвидности на 2026 год, который в точности повторился)

Выбор- путь ускоренного развития специалистов. 3 года вместо 5-7 лет.
Вместо работы в Excel учат профессиональному скептицизму и жёстким переговорам с клиентами

Стажёров сразу выводят на реальные проекты, без передержки в бэкофисе. Но и требования повысили- сильно усложнили внутренние экзамены на аналитику, чтобы компенсировать отсутствие «набивки руки»

🦈Рынок становится конкурентным уже на моменте входа в профессию, требования тоже меняются...
——
👍314
This media is not supported in your browser
VIEW IN TELEGRAM
Когда с утра не выпил кофе…

после пятницы
~~~
😁212😈1
🦎Как получить решения для сложных задач: стратегия, креатив, диагностика, архитектура, генерация гипотез... из хвоста распределения

Под хвостом распределения подразумеваются редкие, но потенциально полезные ответы, которые обычный промпт часто не достает или не отделяет от типичных вариантов


Модели часто дают наиболее ожидаемые ответы после RLHF (обучения с подкреплением на основе человеческих предпочтений), могут начать вести себя так, будто "типичное = лучшее": чаще выбирать знакомые формулировки и схлопываться к одному доминирующему ответу, отсекая менее очевидные

Исследование Verbalized Sampling показывает, что вытащить ответы из хвоста можно через грамотно составленный запрос. Для этого не обязательно дообучать модель или иметь доступ к ее внутренним весам

На простых, хорошо покрытых темах разница будет небольшой, но для сложных задач это может быть особенно полезно

*Промпт «Дай 10 альтернативных вариантов» не покажет какие ответы типичные, а какие редкие. Все пункты будут выглядеть одинаково весомыми и есть риск получить типичные ответы в похожих формулировках

Если спросить через метод VS, в сильно упрощенном варианте: «Дай 10 вариантов и probability (вероятность/типичность) каждого», мы получим доступ к ответам из хвоста распределения до которых обычные запросы часто не добираются или не показывают их как отдельную область распределения.

Это хороший способ сравнивать модели, например сопоставляя ответы GPT и Opus. На слабых моделях проявит себя слабее

🍒 Метод VS можно упаковать в skill и использовать как рабочий инструмент. У меня он состоит из 4 шагов. Возможно выложу его отдельным постом и покажу на примере отчетности X5, как использовать его для управленческой диагностики.

Пример из исследования для 👨‍🎨 творческой задачи

~~~
🔥 realtimeforai
🔥19👍851
Air ~ AI pinned «🦎Как получить решения для сложных задач: стратегия, креатив, диагностика, архитектура, генерация гипотез... из хвоста распределения Под хвостом распределения подразумеваются редкие, но потенциально полезные ответы, которые обычный промпт часто не достает…»
Намечается новый спор между исполнителем и заказчиком: кто заберет себе профит от внедрения ИИ

Недавно в переговорах заказчик уже откровенно попросил скидку на основании того, что: «Ну теперь же всё стало проще с первичным анализом, меньше человеко-часов, рутина автоматизирована...». Клиент хочет скидку на основании того, что ИИ упростил жизнь исполнителя, но не учитывает затраты времени и денег на внедрение этого ускорения

🧱Но, что есть, то есть - дорогой «первый слой» работы дешевеет, и клиенты будут отказываться платить за него как раньше. Кто-то уловил эту тенденцию и уже бесплатно или условно бесплатно предлагает первичный анализ. Например, платформа от консалтинговой компании WestMonroe.ai с бесплатными ИИ-агентами. Руководство пошло на такой шаг, так как сами признают, что стратегический анализ, стоивший миллионы, теперь имеет стоимость близкую к нулю

*Платная работа начинается на более глубоких этапах, когда анализ требует:
-Работы с внутренними данными клиента
-Адаптации под операционную модель
-Решения конкретных «болевых точек»
-Внедрения и трансформации: Самый важный и дорогой этап - сопровождение клиента в процессе реализации предложенных изменений.


Такая откровенность подкупает клиентов. На этом фоне теневой ИИ в отношении клиентов становится опасным путем и может подорвать доверие и долгосрочное сотрудничество

Спасибо "Вайбкодингу" часть клиентов уже приходят подготовленные и им уже не нужно с нуля , а важнее - доведение до ума, проверка, усиление, безопасность, одним словом довести их сырой продукт до совершенства


👤Типы Заказчиков
(можно назвать по своему)

Запрещающие: ИИ под запретом из-за безопасности или регуляторики. Только закрытый контур.

Экономные: сразу ждут дисконт, так как «рутина стала быстрее»

Контролирующие: им важен процесс - какие инструменты применяли, кто проверял и кто утвердил финальную версию
____
Ценообразование будет строиться по принципу: рутина уйдет в фикс или станет бесплатной. Проверка и сложные действия (суды, переговоры, внедрение) подорожают. Суждение, критическое мышление и опыт как и прежде в цене

❗️Не рискуйте доверием клиентов, лучше описать клиенту, что сделала модель, что проверил человек и почему цена именно такая. Скоро будем в договоре это прописывать. Прецеденты уже есть. Есть тендеры, где одним из критериев выбора для заказчика выступает описание исполнителем связки ИИ с экспертами

Эпоха дорогой продажи «первого слоя» работы уходит. Деньги смещаются в опыт, доверие и способность довести решение до результата. Остальное клиент попытается забрать себе в виде скидки

👍129🔥3🎉3
This media is not supported in your browser
VIEW IN TELEGRAM
Пример того, как Excel-агент от ChatGPT может быстро подготовить "первый слой" - финансовую диагностику

Это надстройка, которая устанавливается через магазин Майкрософт.

*У меня заработало только после обновления Офиса до 2024 года

в Excel-агенте три режима работы: Быстрый, Стандартный, Интенсивный. Нет возможности выбора модели. Можно подключить Skill, например как на видео skill по ФМ

Excel-агент делает меньше ошибок, чем тот же Codex, так как работает поверх Office.js / Excel API

В примере на видео: публичная отчетность + Excel-агент ChatGPT + встроенный Skill+ Промпт ⬇️
Проанализируй отчетность компании. 
Создай новый лист "Финансовая диагностика" и оформи его как готовый отчет для финансового директора. Дай профессиональный комментарий по результату финансовой диагностики


* подписка chatGPT plus , но проверьте, может надстройка доступна и на free тарифе. Codex же доступен...
1🔥62👍1