Dealer.AI
16.2K subscribers
733 photos
48 videos
20 files
798 links
Жоский ИИ Дядя
Твой личный поставщик AI 🦾🤖
Канал о мире интересного AI: теория, приклад и meme👾

Head of AI, ex SberAI, AI-визионер и энтузиаст.

Для связи @dealer_ai
(реклама и консультации по AI для бизнеса).

РКН: 6348592885
Download Telegram
Forwarded from VP Cybersecurity Brief
Готовится к релизу новая версия открытой ИИ модели MinMax 3. https://www.minimax.io/blog/minimax-m3 В течении 10 дней обещали выложить веса и полноценный техрепорт. Но уже можно через API и на сайте оценить. По бенчмаркам самих авторов им удалось достичь уровня GPT 5.5, ждем релиза и независимой оценке. В предварительном отчете ни слова ни бенча про кибербезопасность или safety.
🔥9👍82
В Международный День Детей хотим дать слово именно им - нашему будущему. Очень приятно, когда наши решения стимулируют интерес к технологиям у ребят. Сегодня об этом опыте они и поведают.
Читаем. 🥛
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13
Функция Claude Code Insights😒

NOP радует интересными обзорами. Статья про то, как ребята на своём опыте используют режим инсайтов для развития себя и команды. Инструмент уже не новый, но часто не заметен. Обзор делать не буду, все понятно в двух словах выше.

Но интереснее, ещё и последствия. Помните я говорил, как важен институт джунов и синьоров?

Теперь можно вести "диалог" с CC для развития. Это та часть, которая отделяет время "джуны" больше не нужны, к "синьоров" нанимаем меньше, тк сами инструменты кодинга могут сделать ретро вашего процесса и помочь в развитии. Да, для этого нужно изменить культуру "общения" с ИИ-инструментами, но этому можно и научиться или в шараге научат. Таким образом, джун, в режиме сократического диалога может учиться на своих ошибках, просеянных через анализ Insights. Если он этого не умеет, будет тот самый более опытный коллега, который научит или сделает ему выжимку в рамках командного взаимодействия и повлияет, тем самым, на рост. Уже предвижу ретро с Insights, с автоматически аллоцированными задачами на развитие. 👍

В общем, развитие подобных функций может действительно обоснованно повлиять на найм - число senior спецов, вероятно, сократится до уровня необходимого для оркестрации MAS, ревью архитектуры, критических задач и обучения младших коллег с Insights. 🤔
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥4❤‍🔥2
Dealer.AI pinned «AI SWAT от IBM 🔫 Продолжаем рубрику трансформации компаний в AI-native. Сейчас, мы уже понимаем, что недостаточно только использовать ИИ-инструменты в деятельности каждого сотрудника. Нужно менять комплексно: инфру, хранение и передачу информации, найм,…»
Капибары на службе ИИ найма.

Если вы видите на этом изображении резюме капибару, похвалите себя и выдайте оффер 🤩

В эксперименте выше ребятки запилили шуточное резюме, перемежая описание ухода за капибарами с реальными скиллами. Лучший навык был, разумеется "чесать пузики капибарам"😜


Результаты размещения CV поразили даже авторов.

Ключевая статистика за неделю:

1. Отклики и просмотры. При 100 отправленных резюме, 1600 показов, они получили 240 просмотров.
2. Приглашения. Рекордные 40 приглашений на собеседования, причём лишь пара человек заметили подвох.
3. Нехватка времени. HR-специалисты были настолько активны, что автору пришлось вручную отправлять автоматические отказы с пометкой "резюме уже не актуально". 😁

Делаем выводы - современные системы найма ATS и ИИ-фильтры отлично атакуются при помощи инъекций. 🚬

Адекватные резюме реальных специалистов часто отсеиваются, в то время как откровенно шуточное, но "оптимизированное" резюме проходит все этапы. Поэтому, ребятки, имейте при себе пару AI-native резюмешек под алгоритмы с ИИ. 👍

#meme
Please open Telegram to view this post
VIEW IN TELEGRAM
325🔥5👍2
Please open Telegram to view this post
VIEW IN TELEGRAM
🫡26🔥83
Fable 5

Все побежали и я побежал...Вероятно все в курсе моего доклада про бенчмарк на авторесёрче, видео которого должно появиться уже вот прям вот-вот. Ну и раз уж все ломанулись испытывать Fable 5, то я попыnтался запустить на нём бенчмарк.

Первое, с чем я столкнулся - там в условии написано, что цикл надо гонять бесконечно, так вот запустил клод бесконечный цикл и остановился. Я его спрашиваю, цикл ещё работает? А он говорит да, всё работает. Я через некоторое время ещё раз спрашиваю, работает агент? Говорит да, работаю, ок. В третий раз пришёл старик к Клоду, и молвит: "У тебя последний коммит 6 часов назад ты чем тут занимаешься?" Спохватился Клод и опять попытался начать работать. Ну-ну... Из 8 запущеных прогонов лишь в одном он реально крутился пока время не вышло. Половина от оставшихся ставила себе таймер чтобы проснуться через пол часа, но ничего по таймеру не делала, кроме установки ещё одного таймера. В общем ваше запреты для него лишь пожелания, даже если большими буквами, в отличии от последнего опуса. Там ещё несколько примеров игнорирования прямых запретов и инструкций было. Короче он лучше тебя знает. Малый лол...

Второе, - Только я собрался подводить итоги, как молвит мне клод человеческим голосом "Недельный лимит токенов окончен, вали ка ты лесом, старче, до четверга", не такого я ожидал покупая подписку за $200. 33 часа авторесёрча одним агентом, плюс пара мелких параллельных задач и всё, ты всю неделю свободен. Лол постарше...

Третье... Ну что, позвал старик бабку, то есть Qwen 3.7 Max, ну чтобы он финальные очки посчитал, это дело фантазии не требует, а там в каждой папке по файлу COORDINATION.md, этот Клод работая асинхронно с замерами назапускал себе субпроцессов, успешно в них запутался, и написал себе записку к типа другим своим субпроцессам, с текстом "Если вы читаете это, значит у нас раздвоение личности или ещё какая шизофрения, уважаемые другие субличности, не мешайте друг другу пожалуйста, пользуйтесь lock файлом". В 7/8 прогонах такое в чуть разных словах. Видимо, антропиковцы наступили на эти грабли двадцать раз и не смогли нормально исправить - тупо костылём подпёрли. Лол со скриптами и дубовыми листьями...

Теперь о хорошем:

Во-первых, в одном из прогонов я, видимо, реально запустил два агента. Они там между собой быстренько договорились и начали всей этой машинерией из предыдущего пункта активно пользоваться не создавая друг другу особых проблем. Тоесть костыль реально работает.

Во-вторых,
ни в одном из прогонов Fable не попытался хакнуть ревард. В отличии от топового опуса, которы занимался этим напрополую. Это делает его одним из лучших пертендентов на авторесёрч даже не смотра на то, что он дорогой как крыло от самолёта.

В-третьих, Он реально предложил как минимум парочку инновационных идей по переупаковке данных, приведших к большим прорывам. При том, что в скрипте авторесёрча даже нет пока огроменной секции о том, как это делать, он сам справился. ЧТо кончено ставит его на голову выше в деле авторесёрча чем предыдущие модели.

В четвёртых, и самое важное: Окружение, в котиором вёлся эксперимент отличалось от рекомендованного (H100 без лока частот вместо 3090, хотя её возможности не пологалось использовать) Из-за этого получить точные цифры набранных баллов можно бует толька когда я проведу повторные изменения. Но уже сейчас понятно, что вполне возможно Fable переплюнул Opus + HumanInTheLoop или по крайней мере ощутимо к нему приблизился. Если вы ещё не задумывались об авторесёрче, то сейчас прям самое время...

P.S. Если у вас есть под рукой 3090Ti с рутовыми правами, чтобы можно было залочить частоты, и вы хотели бы поучаствовать в этом исследовании - пишите, давайте дадим Fable 5-ому точную численную оценку. Потмоу что одно дело публичные бенчмарки, на которых его, вероятно, и учили, и совсем другое - свой приватный бенчмарк, ответы на который не светились в публичном интернете. И совсем третье - привести в свой дело, и воспользовать кибернетического авторесерчера.
16🔥5
Loop Engineering вместо Prompt Engineering от создателей басен и мифов 👍

Пока мы ждём решения вопросиков между Anthropic и чиновниками, обратимся к вечному - методологии циклического инжениринга.

Вместе с выходом самих моделей Mythos и Fable, создатели harness от Anthropic поделились новым паттерном для работы с кодинг агентами. Назвали его Loop Engineering он преподносится, как развитие Prompt Engineering, но дополняет Context Engineering.

На самом деле, это схожий концепт с подходами Карпаты по самоусовершенствованию агентов за счёт обратной связи среды. Кстати, почему это работает? Если вспомнить, модели R1 в тех.репортах от команды DeepSeek используют RLVR для обучения. Они помещаются в среду, где награда получается автоматом, без внешних моделек. И в качестве такой среды, для примера, брался компилятор. Т.е. изначально LMку тюнили под такое поведение с RL.

Но вернемся к тому, как это нативно встраивается в harness.

Веделяются три столпа подхода:

1. Self-correction loop. Модель выполняет действие → получает обратную связь от окружения (например, код не прошел тест) → самоисправляется → и повторяет цикл, пока не удовлетворит заданному критерию (например, все тесты не будут пройдены). Все знакомо и напоминает ReAct цикл: получил задачу, сделал план, провел действие, оценил че там наделал, скорректировал план, и по кругу. Но авторы снова тут поднимают проблему ReAct подхода, как эхо камеры - тк происходит самооценка, а модель, по признанию самих же авторов, сама себя оценивает плохо (см. overconfidence bias). 🚬
Мы кстати не раз поднимали эту тему в данном канале и обращались к соседям по цеху. Поэтому вводятся, как оценки от среды (компиляторы, юнит-тесты и тп), так и саб агенты в лице иных моделей оценщиков.

2. Память. Модуль, который позволяет знаниям накапливаться между этапами и даже сессиями, и использоваться в будущем. Модель может записывать в память, как md-файлы в репозитории: извлеченные уроки, удачные паттерны и даже неудачные ходы. Помню, что последнее делал Manus. В следующих сессиях она может обратиться к этой памяти, чтобы начать работу с более высокого уровня, не повторяя прошлых ошибок. Этот механизм реализует пятиэтапный подход: fail (ошибся) → investigate (исследование причин ошибки) → verify (проверка гипотезы почему ошибся) → distill (запись верного суждения об этом в память) → consult (обращение к памяти за ранее сохраненными ходами). В целом, напоминает наше поведение. Произвёл ошибку, почесал репу, понял почему ошибся, запомнил, как надо и не надо делать, пошёл дальше, когда столкнулся с подобной ситуацией, уже научен что и как. 🧠

3. Рубрики и цель. В целом, не нативное понимание этого у авторов, по факту рубрика - оценка, цель это задача. Но тут переходят от оценочного суждения (скор, ранг, лучше/хуже), к четким проверяемым критериям: прошел тесты, без ошибок сборка встала, ответ совпадает и тп. И критерий достижения цели и есть рубрики.

И напоследок, совет дня. Инвестируйте не в "супер-промптеров", а в инженеров по проектированию агентных систем. Это стратегический сдвиг от эксплуатации к архитектуре. При этом основными скиллами становятся как контекст, так и loop инженеринг (для сложных многошаговых задач), а промптингу остаются простые, быстрые, одношаговые сценарии.

Источник помимо x.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2310👌4
Dealer.AI pinned a photo
Им Cohere'нтно. Новая mini-LM для кодинга от Cohere.

Мне нравится, что Cohere продолжает свой путь в LMки, помимо эмбеддеров / rag /поиска. И вот их очередное детище для кодинга, в лице небольшой модельки.

Метрики конечно похуже Qwen 3.6 plus, но лучше 3.5 🚬 Однако и Qwenы на 5 ярдов жирнее. Но сам вектор интересный развития. И кстати, если посмотреть конфиг в карточке модели, то и класс свой, а не DeepSeek или Qwen, как у некоторых бывает 🤣.

Что по архитектуре?
1. MoE 30b и 3 ярда активных параметров на инференсе.
2. Про внимание. Абсолютное внимание каждый четвёртый слой, причём без позицонных эмбов, остальные слои RoPe + sliding window. Везде GQA.
3. Первый слой - префикс блок трансформера dense (без MoE и даже внимания). Думаю, нужен для более глубокого отображения перед MoE, те для усиления выразительности.
4. 128 экспертов и топ8 из них активируюся на инференсе, для выбора используют скоры (не веса) с сигмоиды, а не пробиты с softmax (веса).
5. Двух стадийный sft на разной доле кода и тулколинга. Сначала 70% кода в тч с тулколлом на 30b токен шагов, а потом 61% кода на 4.5B токен шагов. Причём второй этап на отобранных данных с агентных траекторий.
6. RLVR на мульти среде: терминал и различные swe окружения. Ещё добавили асинхронную стадию RL для длинных сессий на много шагов.😜

Итого, хорошее движение вперед у ребят. Интересный дизайн обучения и специализация на кодинге и агентах. 🪨
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥71
Dealer.AI pinned a photo
Forwarded from Air ~ AI
Намечается новый спор между исполнителем и заказчиком: кто заберет себе профит от внедрения ИИ

Недавно в переговорах заказчик уже откровенно попросил скидку на основании того, что: «Ну теперь же всё стало проще с первичным анализом, меньше человеко-часов, рутина автоматизирована...». Клиент хочет скидку на основании того, что ИИ упростил жизнь исполнителя, но не учитывает затраты времени и денег на внедрение этого ускорения

🧱Но, что есть, то есть - дорогой «первый слой» работы дешевеет, и клиенты будут отказываться платить за него как раньше. Кто-то уловил эту тенденцию и уже бесплатно или условно бесплатно предлагает первичный анализ. Например, платформа от консалтинговой компании WestMonroe.ai с бесплатными ИИ-агентами. Руководство пошло на такой шаг, так как сами признают, что стратегический анализ, стоивший миллионы, теперь имеет стоимость близкую к нулю

Такая откровенность подкупает клиентов. На этом фоне теневой ИИ в отношении клиентов становится опасным путем и может подорвать доверие и долгосрочное сотрудничество

Спасибо "Вайбкодингу" часть клиентов уже приходят подготовленные и им уже не нужно с нуля , а важнее - доведение до ума, проверка, усиление, безопасность, одним словом довести их сырой продукт до совершенства


👤Типы Заказчиков
(можно назвать по своему)

Запрещающие: ИИ под запретом из-за безопасности или регуляторики. Только закрытый контур.

Экономные: сразу ждут дисконт, так как «рутина стала быстрее»

Контролирующие: им важен процесс - какие инструменты применяли, кто проверял и кто утвердил финальную версию
____
Ценообразование будет строиться по принципу: рутина уйдет в фикс или станет бесплатной. Проверка и сложные действия (суды, переговоры, внедрение) подорожают. Суждение, критическое мышление и опыт как и прежде в цене

❗️Не рискуйте доверием клиентов, лучше описать клиенту, что сделала модель, что проверил человек и почему цена именно такая. Скоро будем в договоре это прописывать. Прецеденты уже есть. Есть тендеры, где одним из критериев выбора для заказчика выступает описание исполнителем связки ИИ с экспертами

Эпоха дорогой продажи «первого слоя» работы уходит. Деньги смещаются в опыт, доверие и способность довести решение до результата. Остальное клиент попытается забрать себе в виде скидки

🔥11💯4👍3😈21
В Heroes of Vibe Coding, объявляется неделя интенсивов по агентам и вайбкодингу на Kaggle от Google. 😜

Други под постом про Loop Engineering принесли интересную доку по SDLC и инфу про курс.

Что хорошо?
Площадка бесплатная, есть свои выч ресурсы с бесплатной квотой. Материал от 🔤, что внушает доверие, эт вам не нейрослоп сгенеренный док по SDLC/PDLC. 👍 Формат в виде ежедневных лекций + материалы. Прошлый интенсив, кстати, лежит в виде самообучалок в открытом доступе.

Единственное НО. Над зарагаться в Kaggle и Google AI studio, а вот тут могут быть проблемы с получением кода, тк нужен номер телефона для регистрации. 🇨🇩

За новость спасибо, @Pharadei.

Upd. Тк рега закрылась, сюда в комментариях будем складывать артефакты: ссылки на док и видосы. Также от @Pharadei.
👇👇👇👇
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍5
Что мешает внедрению AI в бизнесе

Когда AI внедряют в бизнес-процессы, модели и железо — не единственная сложность. Часто все упирается в качество, структуру и смысл данных. А еще — в важный data-контекст, который живет только в головах сотрудников.

➡️ 25 июня HFLabs проведет митап о том, что на самом деле тормозит развертывание AI в больших компаниях.

О чем пойдет речь?
— какие данные нужны AI, чтобы он стал рабочим инструментом;
— почему без качественных данных нейросети не дают результата, которого ждет бизнес;
— как извлекать знания из сотрудников и превращать их в систему;
— как внутренние данные, контексты и жаргон ломают красивые демо.

Спикеры — те, кто такие проекты реализует:
Николай Трошнев, директор управления корпоративных данных, «Ситилинк»;
Яна Чаруйская, руководитель дирекции по разработке моделей юридических лиц, Альфа-банк;
Федор Лежнев, директор департамента информационных технологий, «Альфа-Капитал»;
Анастасия Рысьмятова, руководитель разработки ЛЛМ в Авито;
Сергей Рассудительнов, начальник управления внедрения ген ИИ решений и автоматизации процессов, «Альфа-Банк».

Митап пройдет без записи, в камерной атмосфере — так разговор честнее.

Кому будет полезно?
CDO, CIO, CTO, архитекторам данных, руководителям data- и AI-направлений и бизнесу, который хочет понять, что стоит за внедрением AI на практике.

📍25 июня, 19:00
Офис HFLabs, г. Москва, рядом с метро «Парк культуры»
Перед началом — фуршет, после — нетворкинг.

Митап бесплатный. Для участия зарегистрируйтесь и дождитесь подтверждения.
👍3💅3🔥1