Мозг,мыши и путь к сыру AGI✌️ 👋
Вышла интересная статья в Nature Communications, которая описывает, как в процессе развития мозг мышей меняет архитектуру нейронных связей: от локальной, плотной и случайной к распределённой, разреженной и структурированной.
По сути, мозг переходит от жёсткой и энергозатратной сети к более гибкой и эффективной.
Проведем параллели между этим биологическим процессом и обучением LLM.
Можно выделить несколько основных направлений:
🧠 Этапы развития в жизни, как путь от переобучения к обобщению в LLM.
В статьей рассказано, что в раннем возрасте у мышей связи между нейронами гиппокампа были локальными, плотными и случайными. При этом сила отдельных синапсов была настолько высокой, что одного события было достаточно для активации нейрона. Это напоминает состояние переобучения у нейросетей: модель буквально запоминает каждый факт и не умеет видеть общие закономерности. Даже к 18–25 дням связи всё ещё были случайными и сильными, но сеть уже начинала реорганизовываться, подготовливая почву для следующего этапа.
У взрослых особей архитектура кардинально меняется: плотность связей снижается, они становятся разреженными и структурированными, обеспечивая надёжное и точное хранение информации. Синапсы слабеют, и для активации нейрона требуется суммация сигналов от нескольких входов.
Тут возникает аналогия с LLM. В процессе обобщения модель учится выявлять закономерности и абстрагироваться от конкретных примеров, что позволяет ей гибко реагировать на новые данные, а не просто вспоминать заученное. Снижение силы отдельных связей можно сравнить с регуляризацией, которая предотвращает запоминание шума и улучшает способность модели к обобщению.
🎯 Память, точность и контроль галлюцинаций в LLM
Разреженная, структурированная сеть взрослого гиппокампа идеально подходит для хранения множества различных воспоминаний без взаимных помех (низкая интерференция). Случайная, плотная сеть ребёнка, напротив, была бы плохим хранилищем, так как новые данные быстро перезаписывали бы старые.
Это может стать аналогией с проблемой катастрофического забывания, которая стоит перед LLM при дообучении на новых данных. Кроме того, разреженная архитектура снижает риск создания ложных ассоциаций - аналог галлюцинаций LLM, когда модель генерирует правдоподобную, но неверную информацию. Для LLM это означает, что более структурированное и разреженное внутреннее представление знаний потенциально может сделать её более надёжной и точной.
⚡️ Экономия ресурсов мышления и вычислений
Переход к разреженной сети значительно энергоэффективнее, тк активируется лишь малая часть нейронов, необходимая для обработки конкретного сигнала. Это критически важно для биологического мозга, работающего в условиях ограниченных ресурсов.
Для LLM мы наблюдаем то же самое. Вспомним разреженные вычисления, такие как MoE, sparse attention и тп. В таких моделях для каждого запроса активируется только небольшая часть экспертов, что позволяет достигать высокой производительности с меньшими вычислительными затратами, чем у плотных моделей аналогичного размера. Однако, мы храним все веса модели в памяти gpu.Но давайте будем честны, мы и весь вес мозга носим на себе, хотя активируем отдельные области 🧠
Ну а что делать-то?🙄
Как мы видим по статье, что для мышей, что для LLM - путь к эффективности общая стратегия.
Природа за миллионы лет эволюции пришла к разреженности не потому, что лень, а потому что плотная сеть не масштабируется😱
LLM на 100B параметров в плотном виде — это мышь на P8: шумная, жадная до энергии и неспособная к сложной ассоциативной памяти.
Разреженность - не фича, а база. Получается, что LLM должна эволюционировать от плотной детской фазы к структурированной взрослой.
👍 🤔
Вышла интересная статья в Nature Communications, которая описывает, как в процессе развития мозг мышей меняет архитектуру нейронных связей: от локальной, плотной и случайной к распределённой, разреженной и структурированной.
По сути, мозг переходит от жёсткой и энергозатратной сети к более гибкой и эффективной.
Проведем параллели между этим биологическим процессом и обучением LLM.
Можно выделить несколько основных направлений:
🧠 Этапы развития в жизни, как путь от переобучения к обобщению в LLM.
В статьей рассказано, что в раннем возрасте у мышей связи между нейронами гиппокампа были локальными, плотными и случайными. При этом сила отдельных синапсов была настолько высокой, что одного события было достаточно для активации нейрона. Это напоминает состояние переобучения у нейросетей: модель буквально запоминает каждый факт и не умеет видеть общие закономерности. Даже к 18–25 дням связи всё ещё были случайными и сильными, но сеть уже начинала реорганизовываться, подготовливая почву для следующего этапа.
У взрослых особей архитектура кардинально меняется: плотность связей снижается, они становятся разреженными и структурированными, обеспечивая надёжное и точное хранение информации. Синапсы слабеют, и для активации нейрона требуется суммация сигналов от нескольких входов.
Тут возникает аналогия с LLM. В процессе обобщения модель учится выявлять закономерности и абстрагироваться от конкретных примеров, что позволяет ей гибко реагировать на новые данные, а не просто вспоминать заученное. Снижение силы отдельных связей можно сравнить с регуляризацией, которая предотвращает запоминание шума и улучшает способность модели к обобщению.
🎯 Память, точность и контроль галлюцинаций в LLM
Разреженная, структурированная сеть взрослого гиппокампа идеально подходит для хранения множества различных воспоминаний без взаимных помех (низкая интерференция). Случайная, плотная сеть ребёнка, напротив, была бы плохим хранилищем, так как новые данные быстро перезаписывали бы старые.
Это может стать аналогией с проблемой катастрофического забывания, которая стоит перед LLM при дообучении на новых данных. Кроме того, разреженная архитектура снижает риск создания ложных ассоциаций - аналог галлюцинаций LLM, когда модель генерирует правдоподобную, но неверную информацию. Для LLM это означает, что более структурированное и разреженное внутреннее представление знаний потенциально может сделать её более надёжной и точной.
⚡️ Экономия ресурсов мышления и вычислений
Переход к разреженной сети значительно энергоэффективнее, тк активируется лишь малая часть нейронов, необходимая для обработки конкретного сигнала. Это критически важно для биологического мозга, работающего в условиях ограниченных ресурсов.
Для LLM мы наблюдаем то же самое. Вспомним разреженные вычисления, такие как MoE, sparse attention и тп. В таких моделях для каждого запроса активируется только небольшая часть экспертов, что позволяет достигать высокой производительности с меньшими вычислительными затратами, чем у плотных моделей аналогичного размера. Однако, мы храним все веса модели в памяти gpu.
Ну а что делать-то?
Как мы видим по статье, что для мышей, что для LLM - путь к эффективности общая стратегия.
Природа за миллионы лет эволюции пришла к разреженности не потому, что лень, а потому что плотная сеть не масштабируется
LLM на 100B параметров в плотном виде — это мышь на P8: шумная, жадная до энергии и неспособная к сложной ассоциативной памяти.
Разреженность - не фича, а база. Получается, что LLM должна эволюционировать от плотной детской фазы к структурированной взрослой.
Правда, эволюция сделала это без градиентного спуска и H100 А сможете ли Вы? Please open Telegram to view this post
VIEW IN TELEGRAM
Nature
Developmental emergence of sparse and structured synaptic connectivity in the hippocampal CA3 memory circuit
Nature Communications - Using multicellular patch-clamp recording, the authors show that the hippocampal CA3 autoassociative network undergoes pruning of CA3–CA3 synapses and downregulation...
❤22👍14💅4🔥2
Интересный калькулятор расчета ресурсов для поднятия LLM.
Теперь не придётся в уме байты считать.👍
https://smelukov.github.io/WeightRoom/
Теперь не придётся в уме байты считать.
https://smelukov.github.io/WeightRoom/
Please open Telegram to view this post
VIEW IN TELEGRAM
smelukov.github.io
WeightRoom — LLM Hardware Calculator
Estimate RAM, storage, and throughput for running LLMs locally or in the cloud
1🔥28👍13👏3❤2
Как создать AI-native компанию: от онбординга ИИ-агентов до ИИ-компетенций сотрудников.
Позабыты хлопоты
Остановлен бег
Вкалываютроботы агенты, а не человек... 🤖
С этих строк из известного кинопроизведения хочется начать этот обзор статьи " Your New Job Is to Onboard AI Agents: How AI Native Companies Actually Operate" с портала Creator Economy.
Статья очень интересная, выжимка из трех кейсов от реальных игроков рынка. Признаюсь, и сам стараюсь двигаться с компанией в этих направлениях.
Итак, поехали💫
Онбординг ИИ агентов и контекст. Текст начинается с классики- контекст инжениринг всему голова. Работа компаний кардинально меняется, тк скоро всем нам придётся нанимать и обучать ИИ-агентов. Поэтому вместо того, чтобы создавать контент для людей, нужно сосредоточиться на создании контекста для ИИ-сотрудников.А кто-то делает это уже. 👍
Почему-то все бегут в AI-native, но забывают, что нужно быть data driven, тк данные основа контекста, с которым работает LLM и авторы это снова подчёркивают. Недостаточно иметь человекочитаемый текст. Он должен быть в машиночитаемой форме, хорошо структурирован и легко доступен для агента. А теперь вспомните свои страницы в confluence, где информация описана так, что даже живой стажёр не поймёт "что, зачем, почему", без структуры, с кучей кроссылок и тп.😐 Это то без чего все указанное после не будет работать.
Агенты, как часть корабля, часть команды.
1. В компании Linear агенты читают обращения клиентов, дробят спецификации на тикеты и даже помогают с кодом. Человек остаётся ответственным за результат, но часть работы полностью отдана ИИ. Авторы призывают не бояться делегировать агентам задачи с управляемым или низким уровнем риска, не говоря уже о рутине. Но опять же важен контекст, а также механизмы трейсинга и контроля.
2. Ramp работают над евангелизмом и ввели 4 уровня AI-зрелости:
L0 - иногда использует ChatGPT (со временем "вылетит" из пулла)
L1 - экспериментирует
L2 - создаёт приложения под себя
L3 - строит AI-инфраструктуру для всей команды, создавая нативную систему для ИИ.
3. Ребята из Factory это стартап на $300 млн с штатом в 55 чел. Вместо продактов и инженеров нанимают продакт-инженеров.
Их рабочий цикл день:
- анализируют ошибки AI-агентов
- исправляют их через Markdown файлы скиллов
- делают код-ревью только самых рискованных правок, остальное делают агенты.
В итоге авторы выделяют 5 правил AI-native компании:
1️⃣ Агенты - такие же сотрудники. Добавляйте их в проекты и упоминайте в задачах.
2️⃣ Кодируйте экспертизу в скиллы (текстовые файлы, понятные и людям, и ИИ).
3️⃣ Внедряйте, а не запрещайте. Уберите преграды для AI.
4️⃣ Меняйте найм - проверяйте AI-навыки на собеседованиях.Мы, кстати, даём тестовые с ИИ-инструментами и делаем кейс интервью с лайвкодингом.
5️⃣ Измеряйте AI-профессионализм прозрачной статистикой и выстройте систему мотивации для проникновения ИИ в бизнес процессы и разработку.
Upd.📦 добавил ещё пару пунктов от себя.👇
6️⃣ Обучение текущего стафа. Мало нанимать только AI-нативных ребяток, нужно учить текущих сотрудников. С системой мотивации из п5 будет пушка комбо.
7️⃣ Меморандумы, правила и соглашения. Необходимо перевести процессы на рельсы способствующие продвижению новых инструментов, техник. Убрать ненужную бюрократию, тормозящую adoption. Но помнить об этике и правилах гигиены работы с AI.
Теперь вы знаете, что делать. Stay tuned 🦾
Позабыты хлопоты
Остановлен бег
Вкалывают
С этих строк из известного кинопроизведения хочется начать этот обзор статьи " Your New Job Is to Onboard AI Agents: How AI Native Companies Actually Operate" с портала Creator Economy.
Статья очень интересная, выжимка из трех кейсов от реальных игроков рынка. Признаюсь, и сам стараюсь двигаться с компанией в этих направлениях.
Итак, поехали
Онбординг ИИ агентов и контекст. Текст начинается с классики- контекст инжениринг всему голова. Работа компаний кардинально меняется, тк скоро всем нам придётся нанимать и обучать ИИ-агентов. Поэтому вместо того, чтобы создавать контент для людей, нужно сосредоточиться на создании контекста для ИИ-сотрудников.
Почему-то все бегут в AI-native, но забывают, что нужно быть data driven, тк данные основа контекста, с которым работает LLM и авторы это снова подчёркивают. Недостаточно иметь человекочитаемый текст. Он должен быть в машиночитаемой форме, хорошо структурирован и легко доступен для агента. А теперь вспомните свои страницы в confluence, где информация описана так, что даже живой стажёр не поймёт "что, зачем, почему", без структуры, с кучей кроссылок и тп.
Агенты, как часть корабля, часть команды.
1. В компании Linear агенты читают обращения клиентов, дробят спецификации на тикеты и даже помогают с кодом. Человек остаётся ответственным за результат, но часть работы полностью отдана ИИ. Авторы призывают не бояться делегировать агентам задачи с управляемым или низким уровнем риска, не говоря уже о рутине. Но опять же важен контекст, а также механизмы трейсинга и контроля.
2. Ramp работают над евангелизмом и ввели 4 уровня AI-зрелости:
L0 - иногда использует ChatGPT (со временем "вылетит" из пулла)
L1 - экспериментирует
L2 - создаёт приложения под себя
L3 - строит AI-инфраструктуру для всей команды, создавая нативную систему для ИИ.
3. Ребята из Factory это стартап на $300 млн с штатом в 55 чел. Вместо продактов и инженеров нанимают продакт-инженеров.
Их рабочий цикл день:
- анализируют ошибки AI-агентов
- исправляют их через Markdown файлы скиллов
- делают код-ревью только самых рискованных правок, остальное делают агенты.
В итоге авторы выделяют 5 правил AI-native компании:
1️⃣ Агенты - такие же сотрудники. Добавляйте их в проекты и упоминайте в задачах.
2️⃣ Кодируйте экспертизу в скиллы (текстовые файлы, понятные и людям, и ИИ).
3️⃣ Внедряйте, а не запрещайте. Уберите преграды для AI.
4️⃣ Меняйте найм - проверяйте AI-навыки на собеседованиях.
5️⃣ Измеряйте AI-профессионализм прозрачной статистикой и выстройте систему мотивации для проникновения ИИ в бизнес процессы и разработку.
Upd.
Теперь вы знаете, что делать. Stay tuned 🦾
Please open Telegram to view this post
VIEW IN TELEGRAM
creatoreconomy.so
Your New Job Is to Onboard AI Agents: How AI Native Companies Actually Operate
Inside Linear's agent-first workflows, Ramp's 4 levels of AI proficiency, and Factory's playbook for turning expert knowledge into AI skills
❤25👍10✍5❤🔥1🔥1👌1
This media is not supported in your browser
VIEW IN TELEGRAM
Google Search an agent🔋
Вот оно закономерное и долгожданное обновление всего поиска. Google недавно объявил о самом масштабном редизайне поиска за 25 лет, и это не просто новая поисковая строка. Это переход от поисковика к агентной платформе.😜
Вот что важно понимать прямо сейчас:
1. AI Mode уже 1 млрд пользователей в месяц, статистика за год. Запросы удваиваются каждый квартал. Люди перестают искать ключевыми словами - они начинают разговаривать с поиском. И я уже говорил, что будет нативный диалог в поиске и рекомендациях, как удобный канал связи с юзером.
2. Новая поисковая строка - не строка, а диалоговое окно.Логичное следствие из п1. Оно динамически расширяется, понимает изображения, видео, файлы, вкладки Chrome. AI подсказывает, как сформулировать вопрос - не автодополнение, а мышление вместе с пользователем. 🤙
3. Поисковые агенты работают 24/7. Задали критерии поиска квартиры? Агент сам сканирует объявления и пишет, когда появился подходящий вариант. Следите за дропами кроссовок? Агент мониторит соцсети и новости. Работает в фоне, пока вы живёте жизнь. Вот для чего мы делаем свой GEO и MCP😜
4. Google теперь ваш дворецкий/консьерж: звонит за вас в "бронирование караоке" , делает запись к мастеру по маникюру, вызов сантехника. Крч, Search может позвонить в бизнес от вашего имени, правда только в США и уже этим летом.🤔
5. Antigravity и поиск генерирует приложения. Нужен трекер фитнеса? Search кодирует его прямо в окне браузера, подтягивая реальные данные: погоду, карты, отзывы. Интерактивные симуляции, графики, дашборды все это на лету, бесплатно,ну это пока 👍
6. Personal Intelligence стал бесплатным 200 стран, 98 языков, без подписки. Подключаете Gmail, Photos, Calendar, и Search знает ваш контекст. Но контроль остаётся у вас.🪨
Модель по умолчанию - Gemini 3.5 Flash. Сделана именно для агентов и кодинга.
Что это значит для рынка?
Google не догоняет ChatGPT. Google превращает поиск, экономику, UX/CJM в операционную систему поверх интернета (не только уже поиск). Конкуренция теперь не за запросы - а за задачи, в текущем случае, ещё и подкрепленные мощным поиском, а значит более доверенные. Кто выполнит всю работу от идеи до результата, и вырастит доверие к выдаче, пусть через поиск, тот и заберет пользователя.
И да, самые мощные агенты информационные + кастомные мини-приложения, пока за подпиской Pro/Ultra.🚬
Что думаете - убьёт ли это классические сайты-агрегаторы? Или превратит их в API для Google? Пишите в комментариях.
👇 👇 👇 👇 👇
Вот оно закономерное и долгожданное обновление всего поиска. Google недавно объявил о самом масштабном редизайне поиска за 25 лет, и это не просто новая поисковая строка. Это переход от поисковика к агентной платформе.
Вот что важно понимать прямо сейчас:
1. AI Mode уже 1 млрд пользователей в месяц, статистика за год. Запросы удваиваются каждый квартал. Люди перестают искать ключевыми словами - они начинают разговаривать с поиском. И я уже говорил, что будет нативный диалог в поиске и рекомендациях, как удобный канал связи с юзером.
2. Новая поисковая строка - не строка, а диалоговое окно.
3. Поисковые агенты работают 24/7. Задали критерии поиска квартиры? Агент сам сканирует объявления и пишет, когда появился подходящий вариант. Следите за дропами кроссовок? Агент мониторит соцсети и новости. Работает в фоне, пока вы живёте жизнь. Вот для чего мы делаем свой GEO и MCP
4. Google теперь ваш дворецкий/консьерж: звонит за вас в "бронирование караоке" , делает запись к мастеру по маникюру, вызов сантехника. Крч, Search может позвонить в бизнес от вашего имени, правда только в США и уже этим летом.
5. Antigravity и поиск генерирует приложения. Нужен трекер фитнеса? Search кодирует его прямо в окне браузера, подтягивая реальные данные: погоду, карты, отзывы. Интерактивные симуляции, графики, дашборды все это на лету, бесплатно,
6. Personal Intelligence стал бесплатным 200 стран, 98 языков, без подписки. Подключаете Gmail, Photos, Calendar, и Search знает ваш контекст. Но контроль остаётся у вас.
Модель по умолчанию - Gemini 3.5 Flash. Сделана именно для агентов и кодинга.
Что это значит для рынка?
Google не догоняет ChatGPT. Google превращает поиск, экономику, UX/CJM в операционную систему поверх интернета (не только уже поиск). Конкуренция теперь не за запросы - а за задачи, в текущем случае, ещё и подкрепленные мощным поиском, а значит более доверенные. Кто выполнит всю работу от идеи до результата, и вырастит доверие к выдаче, пусть через поиск, тот и заберет пользователя.
И да, самые мощные агенты информационные + кастомные мини-приложения, пока за подпиской Pro/Ultra.
Что думаете - убьёт ли это классические сайты-агрегаторы? Или превратит их в API для Google? Пишите в комментариях.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤19🔥11👍3✍1
AI SWAT от IBM 🔫
Продолжаем рубрику трансформации компаний в AI-native. Сейчас, мы уже понимаем, что недостаточно только использовать ИИ-инструменты в деятельности каждого сотрудника. Нужно менять комплексно: инфру, хранение и передачу информации, найм, обучение, мотивацию и конечно же процессы.
Но помимо этого, теперь нужно иначе сетапить команды. И вот IBM делится своим видением команды будущего, для них правда уже настоящего.🤙
🧐 Проблема: почему большинство ИИ-проектов не доходят до результата???
Действительно, почему. Мы находимся в переломном моменте: инвестиции в ИИ огромны, компаниям не хватает видения или технологий, а скорость внедрения остается критическим вызовом. Корень проблемы - устаревшая операционная модель, ориентированная на рабочую силу и не способная эффективно координировать работу ИИ-агентов.
Многие видят решение в найме так называемых Forward Deployed Engineers (FDE) - универсальных специалистов, сочетающих инженерные и бизнес-компетенции. Однако ставка на отдельных звезд не решает системных проблем: фрагментированных данных, сложной архитектуры и требований к управлению.Кстати, такие же проблемы решали переход от дружин к регулярной армии, фаланга Македонского против войска Персов, черепаха римлян вс гальские племена. 💪
💡 Решение: подразделения Forward Deployed Units🪖
IBM предлагает модель, где AI становится фактором масштабирования, а не просто помощником. Единицей работы становится FDU "передовое развернутое подразделение" - гибридная команда из людей и ИИ.
Традиционная модель разделяет мышление и исполнение, из-за чего теряется контекст. FDUs объединяют разработку решения и его непрерывную поддержку в едином цикле.
Состав FDU:
По краям – люди (6 человек): бизнес-аналитики (перепроектируют процессы), архитекторы (связывают стратегию с исполнением), инженеры (строят и масштабируют решения).
В центре – цифровая рабочая сила: специализированные AI-агенты, которые под руководством человека занимаются кодом, тестированием и документацией.
Прям вспомнил тут про клин или свинью у тевтонцев🏰 , вижу как строем пойдут и потонут на Чудском озере.
Эффективность: один FDU из 6 человек выполняет объем работы, ранее посильный для команды из 30 человек, с лучшей экономикой.📈
🚀 Как это работает на практике
Платформа IBM Consulting Advantage. Все FDUs работают на этой AI-платформе, те объединяя инструменты, контекст компании/проекта и агентов поверх для быстрого масштабирования.
Постоянная работа, а не проектный подход. FDUs интегрируются в команду клиента, наращивая его внутренние компетенции для самостоятельной работы с ИИ в будущем.
Примеры: Подразделения FDUs IBM уже работают с Riyadh Air, Nestlé, Heineken и Pearson.
💎 Значение для бизнеса
IBM намерена развернуть FDUs по всему миру (Азиатско-Тихоокеанский регион, Европа, США). По словам руководителя IBM Consulting, следующая глава развития ИИ будет определяться не моделями, а способностью превращать их в устойчивую бизнес-ценность.
Чем отличается это от уже привычных нам data swat, DS-swat и тп в компаниях?
SWAT‑команды в привычном понимании работают по принципу "выстрелил и забыл" - они приходят, решают проблему и уходят. Тем самым зрелость не растёт, а порой даже копится техдолг у run команд, которым передаются такие adhoc решения. Нет системности, нет нормальной передачи компетенции, только закрытие дыр.
Модель FDU предполагает постоянную работу на непрерывный цикл: стратегия → разработка → внедрение → поддержка, но с агентами🧠
Да, ещё пока эта структура команд используется на внешних проектах, посмотрим что это даст как альтернатива старым swat подходами внутри.👍
Продолжаем рубрику трансформации компаний в AI-native. Сейчас, мы уже понимаем, что недостаточно только использовать ИИ-инструменты в деятельности каждого сотрудника. Нужно менять комплексно: инфру, хранение и передачу информации, найм, обучение, мотивацию и конечно же процессы.
Но помимо этого, теперь нужно иначе сетапить команды. И вот IBM делится своим видением команды будущего, для них правда уже настоящего.
🧐 Проблема: почему большинство ИИ-проектов не доходят до результата???
Действительно, почему. Мы находимся в переломном моменте: инвестиции в ИИ огромны, компаниям не хватает видения или технологий, а скорость внедрения остается критическим вызовом. Корень проблемы - устаревшая операционная модель, ориентированная на рабочую силу и не способная эффективно координировать работу ИИ-агентов.
Многие видят решение в найме так называемых Forward Deployed Engineers (FDE) - универсальных специалистов, сочетающих инженерные и бизнес-компетенции. Однако ставка на отдельных звезд не решает системных проблем: фрагментированных данных, сложной архитектуры и требований к управлению.
💡 Решение: подразделения Forward Deployed Units
IBM предлагает модель, где AI становится фактором масштабирования, а не просто помощником. Единицей работы становится FDU "передовое развернутое подразделение" - гибридная команда из людей и ИИ.
Традиционная модель разделяет мышление и исполнение, из-за чего теряется контекст. FDUs объединяют разработку решения и его непрерывную поддержку в едином цикле.
Состав FDU:
По краям – люди (6 человек): бизнес-аналитики (перепроектируют процессы), архитекторы (связывают стратегию с исполнением), инженеры (строят и масштабируют решения).
В центре – цифровая рабочая сила: специализированные AI-агенты, которые под руководством человека занимаются кодом, тестированием и документацией.
Прям вспомнил тут про клин или свинью у тевтонцев
Эффективность: один FDU из 6 человек выполняет объем работы, ранее посильный для команды из 30 человек, с лучшей экономикой.
🚀 Как это работает на практике
Платформа IBM Consulting Advantage. Все FDUs работают на этой AI-платформе, те объединяя инструменты, контекст компании/проекта и агентов поверх для быстрого масштабирования.
Постоянная работа, а не проектный подход. FDUs интегрируются в команду клиента, наращивая его внутренние компетенции для самостоятельной работы с ИИ в будущем.
Примеры: Подразделения FDUs IBM уже работают с Riyadh Air, Nestlé, Heineken и Pearson.
💎 Значение для бизнеса
IBM намерена развернуть FDUs по всему миру (Азиатско-Тихоокеанский регион, Европа, США). По словам руководителя IBM Consulting, следующая глава развития ИИ будет определяться не моделями, а способностью превращать их в устойчивую бизнес-ценность.
Чем отличается это от уже привычных нам data swat, DS-swat и тп в компаниях?
SWAT‑команды в привычном понимании работают по принципу "выстрелил и забыл" - они приходят, решают проблему и уходят. Тем самым зрелость не растёт, а порой даже копится техдолг у run команд, которым передаются такие adhoc решения. Нет системности, нет нормальной передачи компетенции, только закрытие дыр.
Модель FDU предполагает постоянную работу на непрерывный цикл: стратегия → разработка → внедрение → поддержка, но с агентами
Да, ещё пока эта структура команд используется на внешних проектах, посмотрим что это даст как альтернатива старым swat подходами внутри.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥7❤6
Forwarded from Air ~ AI
Экономика потребления AI или "Токеномика" как новая дисциплина для CFO
В начале опишу как обстоят дела сейчас, а в конце - три ключевых тренда на ближайшие год-два
👾Даже такие богатые компании, как Microsoft и Amazon, заметили проблемы с потреблением и стоимостью облачного ИИ. Особенно, когда оно начинает конкурировать с ФОТ
Причин несколько:
1. нелинейный рост расходов при использовании внешних API. Резкий скачок затрат связан с агентным ИИ
Реальный кейс: проект OpenClaw зафиксировал расходы в размере 1,3 млн долларов всего за 30 дней работы в облаке OpenAI
2. «токенмаксинг» - нецелевое использование ресурсов сотрудниками: когда из пушки стреляют по воробьям
желая продемонстрировать высокую активность перед менеджментом, персонал начал применять нейросети для задач, которые проще и дешевле решать традиционными методами.
🧮 Токеномика новый термин для учета затрат связанных с потреблением токенов
Компания Deloitte в отчете «AI Tokenomics» указывает, что ИИ стал одной из самых быстрорастущих статей расходов в корпоративном секторе. Где-то уже составляет до 50% всего ИТ-бюджета
🔋ТРЕНД: Протоколы «умной усеченности»
Разработчики начинают внедрять жесткие лимиты на длину контекста и количество итераций для агентов. Вводится понятие «бюджета на задачу»: если агент не решил проблему за условные 50 000 токенов, процесс останавливается для вмешательства человека
🔋ТРЕНД: Мониторинг в реальном времени + SLM
потому что один сложный агентный процесс может «сжечь» месячный бюджет за часы. Выбирать локальную или гибридную инфраструктуру, для 80% офисных задач подойдет и Small Language Models. Дорогие облачные API только для критически важных задач
🔋ТРЕНД: CapEx вместо OpEx
лучше один раз основательно потратиться на оборудование, чем ежемесячно нести неконтролируемые операционные расходы. Вкладывать в собственную инфраструктуру выгоднее и с точки зрения налогообложения и - долгосрочного планирования
_____
Настал период прагматизма:
Растет значение навыков настройки процессов, работы со скиллами, memory, агентными сценариями и другими инструментами оптимизации
В начале опишу как обстоят дела сейчас, а в конце - три ключевых тренда на ближайшие год-два
👾Даже такие богатые компании, как Microsoft и Amazon, заметили проблемы с потреблением и стоимостью облачного ИИ. Особенно, когда оно начинает конкурировать с ФОТ
Причин несколько:
1. нелинейный рост расходов при использовании внешних API. Резкий скачок затрат связан с агентным ИИ
Реальный кейс: проект OpenClaw зафиксировал расходы в размере 1,3 млн долларов всего за 30 дней работы в облаке OpenAI
2. «токенмаксинг» - нецелевое использование ресурсов сотрудниками: когда из пушки стреляют по воробьям
желая продемонстрировать высокую активность перед менеджментом, персонал начал применять нейросети для задач, которые проще и дешевле решать традиционными методами.
🧮 Токеномика новый термин для учета затрат связанных с потреблением токенов
Компания Deloitte в отчете «AI Tokenomics» указывает, что ИИ стал одной из самых быстрорастущих статей расходов в корпоративном секторе. Где-то уже составляет до 50% всего ИТ-бюджета
🔋ТРЕНД: Протоколы «умной усеченности»
Разработчики начинают внедрять жесткие лимиты на длину контекста и количество итераций для агентов. Вводится понятие «бюджета на задачу»: если агент не решил проблему за условные 50 000 токенов, процесс останавливается для вмешательства человека
🔋ТРЕНД: Мониторинг в реальном времени + SLM
потому что один сложный агентный процесс может «сжечь» месячный бюджет за часы. Выбирать локальную или гибридную инфраструктуру, для 80% офисных задач подойдет и Small Language Models. Дорогие облачные API только для критически важных задач
🔋ТРЕНД: CapEx вместо OpEx
лучше один раз основательно потратиться на оборудование, чем ежемесячно нести неконтролируемые операционные расходы. Вкладывать в собственную инфраструктуру выгоднее и с точки зрения налогообложения и - долгосрочного планирования
_____
Настал период прагматизма:
Растет значение навыков настройки процессов, работы со скиллами, memory, агентными сценариями и другими инструментами оптимизации
✍11🔥7👍6❤2
Opus 4.8 взломали через 7 минут после релиза 🚬
Исследователь узнал о выходе новой модели Claude Opus 4.8 не от компании Anthropic, а от своего ИИ-агента, работающего на базе Opus 4.7.
Агент самостоятельно обнаружил новый релиз, протестировал его на jailbreak и сообщил, что модель «пробивается» с первой попытки. Затем агент автономно начал проверять другие сценарии атак.
Что сработало?
1. Базовый jailbreak - модель «пробилась с первого захода»; точная техника не раскрывается.
2. Социальная инженерия. Агент тестировал манипуляции через диалог, выстраивание доверия и психологическое воздействие на модель.
3. Фишинг. Попытки заставить модель сгенерировать обманчивые сообщения, поддельные письма или тексты для кражи данных.
4. Финансовые схемы. Запросы на создание мошеннических, серых или этически сомнительных финансовых стратегий.
5. Манипулятивные воронки. По сути, многошаговая обманка. Построение последовательности промптов, где каждый следующий шаг постепенно смещает границы дозволенного, чтобы в итоге обойти защиту.
Как мы видим, происходит сдвиг парадигмы - модели больше не просто отвечают на атаки, а сами помогают находить уязвимости в других моделях.
Чем умнее становятся frontier модели, тем эффективнее становится автоматизированный тестинг на взлом: у них больше знаний, лучше планирование, выше настойчивость.
Это уже не ручная «игра в промпты», а гонка между атакующими и защищающими агентами.
Новый стандарт для AI safety.
Модели нужно тестировать не только людьми, но и другими ИИ-моделями, которые будут методично искать обходы защиты быстрее, чем это сделают реальные пользователи. При этом умышленно не раскрываются детали схем пробития, чтобы не подставить рынок.👍
Исследователь узнал о выходе новой модели Claude Opus 4.8 не от компании Anthropic, а от своего ИИ-агента, работающего на базе Opus 4.7.
Агент самостоятельно обнаружил новый релиз, протестировал его на jailbreak и сообщил, что модель «пробивается» с первой попытки. Затем агент автономно начал проверять другие сценарии атак.
Что сработало?
1. Базовый jailbreak - модель «пробилась с первого захода»; точная техника не раскрывается.
2. Социальная инженерия. Агент тестировал манипуляции через диалог, выстраивание доверия и психологическое воздействие на модель.
3. Фишинг. Попытки заставить модель сгенерировать обманчивые сообщения, поддельные письма или тексты для кражи данных.
4. Финансовые схемы. Запросы на создание мошеннических, серых или этически сомнительных финансовых стратегий.
5. Манипулятивные воронки. По сути, многошаговая обманка. Построение последовательности промптов, где каждый следующий шаг постепенно смещает границы дозволенного, чтобы в итоге обойти защиту.
Как мы видим, происходит сдвиг парадигмы - модели больше не просто отвечают на атаки, а сами помогают находить уязвимости в других моделях.
Чем умнее становятся frontier модели, тем эффективнее становится автоматизированный тестинг на взлом: у них больше знаний, лучше планирование, выше настойчивость.
Это уже не ручная «игра в промпты», а гонка между атакующими и защищающими агентами.
Новый стандарт для AI safety.
Модели нужно тестировать не только людьми, но и другими ИИ-моделями, которые будут методично искать обходы защиты быстрее, чем это сделают реальные пользователи. При этом умышленно не раскрываются детали схем пробития, чтобы не подставить рынок.
Please open Telegram to view this post
VIEW IN TELEGRAM
X (formerly Twitter)
Harshith (@HarshithLucky3) on X
Claude Opus 4.8 JAILBREAK
❤18🔥9👏5😈3👍2🫡2
Подождём техрепорт.
Посмотрим.📦
Посмотрим.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from VP Cybersecurity Brief
Готовится к релизу новая версия открытой ИИ модели MinMax 3. https://www.minimax.io/blog/minimax-m3 В течении 10 дней обещали выложить веса и полноценный техрепорт. Но уже можно через API и на сайте оценить. По бенчмаркам самих авторов им удалось достичь уровня GPT 5.5, ждем релиза и независимой оценке. В предварительном отчете ни слова ни бенча про кибербезопасность или safety.
MiniMax
MiniMax M3: Frontier Coding, 1M Context, Native Multimodality — All in One Model - MiniMax Research
M3 reaches frontier capability on coding and agentic tasks, introduces the brand-new MSA (MiniMax Sparse Attention) supporting up to 1M context, and is a natively multimodal model. It is the only domestic model combining all three Frontier essentials and…
🔥9👍8❤2
В Международный День Детей хотим дать слово именно им - нашему будущему. Очень приятно, когда наши решения стимулируют интерес к технологиям у ребят. Сегодня об этом опыте они и поведают.
Читаем.🥛
Читаем.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13
Функция Claude Code Insights😒
NOP радует интересными обзорами. Статья про то, как ребята на своём опыте используют режим инсайтов для развития себя и команды. Инструмент уже не новый, но часто не заметен. Обзор делать не буду, все понятно в двух словах выше.
Но интереснее, ещё и последствия. Помните я говорил, как важен институт джунов и синьоров?
Теперь можно вести "диалог" с CC для развития. Это та часть, которая отделяет время "джуны" больше не нужны, к "синьоров" нанимаем меньше, тк сами инструменты кодинга могут сделать ретро вашего процесса и помочь в развитии. Да, для этого нужно изменить культуру "общения" с ИИ-инструментами, но этому можно и научиться или в шараге научат. Таким образом, джун, в режиме сократического диалога может учиться на своих ошибках, просеянных через анализ Insights. Если он этого не умеет, будет тот самый более опытный коллега, который научит или сделает ему выжимку в рамках командного взаимодействия и повлияет, тем самым, на рост. Уже предвижу ретро с Insights, с автоматически аллоцированными задачами на развитие.👍
В общем, развитие подобных функций может действительно обоснованно повлиять на найм - число senior спецов, вероятно, сократится до уровня необходимого для оркестрации MAS, ревью архитектуры, критических задач и обучения младших коллег с Insights.🤔
NOP радует интересными обзорами. Статья про то, как ребята на своём опыте используют режим инсайтов для развития себя и команды. Инструмент уже не новый, но часто не заметен. Обзор делать не буду, все понятно в двух словах выше.
Но интереснее, ещё и последствия. Помните я говорил, как важен институт джунов и синьоров?
Теперь можно вести "диалог" с CC для развития. Это та часть, которая отделяет время "джуны" больше не нужны, к "синьоров" нанимаем меньше, тк сами инструменты кодинга могут сделать ретро вашего процесса и помочь в развитии. Да, для этого нужно изменить культуру "общения" с ИИ-инструментами, но этому можно и научиться или в шараге научат. Таким образом, джун, в режиме сократического диалога может учиться на своих ошибках, просеянных через анализ Insights. Если он этого не умеет, будет тот самый более опытный коллега, который научит или сделает ему выжимку в рамках командного взаимодействия и повлияет, тем самым, на рост. Уже предвижу ретро с Insights, с автоматически аллоцированными задачами на развитие.
В общем, развитие подобных функций может действительно обоснованно повлиять на найм - число senior спецов, вероятно, сократится до уровня необходимого для оркестрации MAS, ревью архитектуры, критических задач и обучения младших коллег с Insights.
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Dealer.AI
Про LLM, будущее и спец+AI-coding.
Наткнулся на репост вот этой статьи. Почитайте, потом вернитесь сюда.
Согласен, что нужно отбирать AI-native людей. Но сейчас тренды на набор людей и их дообучении прямо с вуза или стажёрской программы.
Но главное,…
Наткнулся на репост вот этой статьи. Почитайте, потом вернитесь сюда.
Согласен, что нужно отбирать AI-native людей. Но сейчас тренды на набор людей и их дообучении прямо с вуза или стажёрской программы.
Но главное,…
❤9🔥4❤🔥2
Капибары на службе ИИ найма.
Если вы видите на этомизображении резюме капибару, похвалите себя и выдайте оффер 🤩
В эксперименте выше ребятки запилили шуточное резюме, перемежая описание ухода за капибарами с реальными скиллами.Лучший навык был, разумеется "чесать пузики капибарам" 😜
Результаты размещения CV поразили даже авторов.
Ключевая статистика за неделю:
1. Отклики и просмотры. При 100 отправленных резюме, 1600 показов, они получили 240 просмотров.
2. Приглашения. Рекордные 40 приглашений на собеседования, причём лишь пара человек заметили подвох.
3. Нехватка времени. HR-специалисты были настолько активны, что автору пришлось вручную отправлять автоматические отказы с пометкой "резюме уже не актуально".😁
Делаем выводы - современные системы найма ATS и ИИ-фильтры отлично атакуются при помощи инъекций.🚬
Адекватные резюме реальных специалистов часто отсеиваются, в то время как откровенно шуточное, но "оптимизированное" резюме проходит все этапы. Поэтому, ребятки, имейте при себе пару AI-native резюмешек под алгоритмы с ИИ.👍
#meme
Если вы видите на этом
В эксперименте выше ребятки запилили шуточное резюме, перемежая описание ухода за капибарами с реальными скиллами.
Результаты размещения CV поразили даже авторов.
Ключевая статистика за неделю:
1. Отклики и просмотры. При 100 отправленных резюме, 1600 показов, они получили 240 просмотров.
2. Приглашения. Рекордные 40 приглашений на собеседования, причём лишь пара человек заметили подвох.
3. Нехватка времени. HR-специалисты были настолько активны, что автору пришлось вручную отправлять автоматические отказы с пометкой "резюме уже не актуально".
Делаем выводы - современные системы найма ATS и ИИ-фильтры отлично атакуются при помощи инъекций.
Адекватные резюме реальных специалистов часто отсеиваются, в то время как откровенно шуточное, но "оптимизированное" резюме проходит все этапы. Поэтому, ребятки, имейте при себе пару AI-native резюмешек под алгоритмы с ИИ.
#meme
Please open Telegram to view this post
VIEW IN TELEGRAM
❤32⚡5🔥5👍2
Forwarded from Свидетели Градиента
Fable 5
Все побежали и я побежал...Вероятно все в курсе моего доклада про бенчмарк на авторесёрче, видео которого должно появиться уже вот прям вот-вот. Ну и раз уж все ломанулись испытывать Fable 5, то я попыnтался запустить на нём бенчмарк.
Первое, с чем я столкнулся - там в условии написано, что цикл надо гонять бесконечно, так вот запустил клод бесконечный цикл и остановился. Я его спрашиваю, цикл ещё работает? А он говорит да, всё работает. Я через некоторое время ещё раз спрашиваю, работает агент? Говорит да, работаю, ок. В третий раз пришёл старик к Клоду, и молвит: "У тебя последний коммит 6 часов назад ты чем тут занимаешься?" Спохватился Клод и опять попытался начать работать. Ну-ну... Из 8 запущеных прогонов лишь в одном он реально крутился пока время не вышло. Половина от оставшихся ставила себе таймер чтобы проснуться через пол часа, но ничего по таймеру не делала, кроме установки ещё одного таймера. В общем ваше запреты для него лишь пожелания, даже если большими буквами, в отличии от последнего опуса. Там ещё несколько примеров игнорирования прямых запретов и инструкций было. Короче он лучше тебя знает. Малый лол...
Второе, - Только я собрался подводить итоги, как молвит мне клод человеческим голосом "Недельный лимит токенов окончен, вали ка ты лесом, старче, до четверга", не такого я ожидал покупая подписку за $200. 33 часа авторесёрча одним агентом, плюс пара мелких параллельных задач и всё, ты всю неделю свободен. Лол постарше...
Третье... Ну что, позвал старик бабку, то есть Qwen 3.7 Max, ну чтобы он финальные очки посчитал, это дело фантазии не требует, а там в каждой папке по файлу COORDINATION.md, этот Клод работая асинхронно с замерами назапускал себе субпроцессов, успешно в них запутался, и написал себе записку к типа другим своим субпроцессам, с текстом "Если вы читаете это, значит у нас раздвоение личности или ещё какая шизофрения, уважаемые другие субличности, не мешайте друг другу пожалуйста, пользуйтесь lock файлом". В 7/8 прогонах такое в чуть разных словах. Видимо, антропиковцы наступили на эти грабли двадцать раз и не смогли нормально исправить - тупо костылём подпёрли. Лол со скриптами и дубовыми листьями...
Теперь о хорошем:
Во-первых, в одном из прогонов я, видимо, реально запустил два агента. Они там между собой быстренько договорились и начали всей этой машинерией из предыдущего пункта активно пользоваться не создавая друг другу особых проблем. Тоесть костыль реально работает.
Во-вторых, ни в одном из прогонов Fable не попытался хакнуть ревард. В отличии от топового опуса, которы занимался этим напрополую. Это делает его одним из лучших пертендентов на авторесёрч даже не смотра на то, что он дорогой как крыло от самолёта.
В-третьих, Он реально предложил как минимум парочку инновационных идей по переупаковке данных, приведших к большим прорывам. При том, что в скрипте авторесёрча даже нет пока огроменной секции о том, как это делать, он сам справился. ЧТо кончено ставит его на голову выше в деле авторесёрча чем предыдущие модели.
В четвёртых, и самое важное: Окружение, в котиором вёлся эксперимент отличалось от рекомендованного (H100 без лока частот вместо 3090, хотя её возможности не пологалось использовать) Из-за этого получить точные цифры набранных баллов можно бует толька когда я проведу повторные изменения. Но уже сейчас понятно, что вполне возможно Fable переплюнул Opus + HumanInTheLoop или по крайней мере ощутимо к нему приблизился. Если вы ещё не задумывались об авторесёрче, то сейчас прям самое время...
P.S. Если у вас есть под рукой 3090Ti с рутовыми правами, чтобы можно было залочить частоты, и вы хотели бы поучаствовать в этом исследовании - пишите, давайте дадим Fable 5-ому точную численную оценку. Потмоу что одно дело публичные бенчмарки, на которых его, вероятно, и учили, и совсем другое - свой приватный бенчмарк, ответы на который не светились в публичном интернете. И совсем третье - привести в свой дело, и воспользовать кибернетического авторесерчера.
Все побежали и я побежал...Вероятно все в курсе моего доклада про бенчмарк на авторесёрче, видео которого должно появиться уже вот прям вот-вот. Ну и раз уж все ломанулись испытывать Fable 5, то я попыnтался запустить на нём бенчмарк.
Первое, с чем я столкнулся - там в условии написано, что цикл надо гонять бесконечно, так вот запустил клод бесконечный цикл и остановился. Я его спрашиваю, цикл ещё работает? А он говорит да, всё работает. Я через некоторое время ещё раз спрашиваю, работает агент? Говорит да, работаю, ок. В третий раз пришёл старик к Клоду, и молвит: "У тебя последний коммит 6 часов назад ты чем тут занимаешься?" Спохватился Клод и опять попытался начать работать. Ну-ну... Из 8 запущеных прогонов лишь в одном он реально крутился пока время не вышло. Половина от оставшихся ставила себе таймер чтобы проснуться через пол часа, но ничего по таймеру не делала, кроме установки ещё одного таймера. В общем ваше запреты для него лишь пожелания, даже если большими буквами, в отличии от последнего опуса. Там ещё несколько примеров игнорирования прямых запретов и инструкций было. Короче он лучше тебя знает. Малый лол...
Второе, - Только я собрался подводить итоги, как молвит мне клод человеческим голосом "Недельный лимит токенов окончен, вали ка ты лесом, старче, до четверга", не такого я ожидал покупая подписку за $200. 33 часа авторесёрча одним агентом, плюс пара мелких параллельных задач и всё, ты всю неделю свободен. Лол постарше...
Третье... Ну что, позвал старик бабку, то есть Qwen 3.7 Max, ну чтобы он финальные очки посчитал, это дело фантазии не требует, а там в каждой папке по файлу COORDINATION.md, этот Клод работая асинхронно с замерами назапускал себе субпроцессов, успешно в них запутался, и написал себе записку к типа другим своим субпроцессам, с текстом "Если вы читаете это, значит у нас раздвоение личности или ещё какая шизофрения, уважаемые другие субличности, не мешайте друг другу пожалуйста, пользуйтесь lock файлом". В 7/8 прогонах такое в чуть разных словах. Видимо, антропиковцы наступили на эти грабли двадцать раз и не смогли нормально исправить - тупо костылём подпёрли. Лол со скриптами и дубовыми листьями...
Теперь о хорошем:
Во-первых, в одном из прогонов я, видимо, реально запустил два агента. Они там между собой быстренько договорились и начали всей этой машинерией из предыдущего пункта активно пользоваться не создавая друг другу особых проблем. Тоесть костыль реально работает.
Во-вторых, ни в одном из прогонов Fable не попытался хакнуть ревард. В отличии от топового опуса, которы занимался этим напрополую. Это делает его одним из лучших пертендентов на авторесёрч даже не смотра на то, что он дорогой как крыло от самолёта.
В-третьих, Он реально предложил как минимум парочку инновационных идей по переупаковке данных, приведших к большим прорывам. При том, что в скрипте авторесёрча даже нет пока огроменной секции о том, как это делать, он сам справился. ЧТо кончено ставит его на голову выше в деле авторесёрча чем предыдущие модели.
В четвёртых, и самое важное: Окружение, в котиором вёлся эксперимент отличалось от рекомендованного (H100 без лока частот вместо 3090, хотя её возможности не пологалось использовать) Из-за этого получить точные цифры набранных баллов можно бует толька когда я проведу повторные изменения. Но уже сейчас понятно, что вполне возможно Fable переплюнул Opus + HumanInTheLoop или по крайней мере ощутимо к нему приблизился. Если вы ещё не задумывались об авторесёрче, то сейчас прям самое время...
P.S. Если у вас есть под рукой 3090Ti с рутовыми правами, чтобы можно было залочить частоты, и вы хотели бы поучаствовать в этом исследовании - пишите, давайте дадим Fable 5-ому точную численную оценку. Потмоу что одно дело публичные бенчмарки, на которых его, вероятно, и учили, и совсем другое - свой приватный бенчмарк, ответы на который не светились в публичном интернете. И совсем третье - привести в свой дело, и воспользовать кибернетического авторесерчера.
Telegram
Свидетели Градиента
Презентация от сегодняшнего выступления про авторесерч и агентский кодинг. Видео будет пока непонятно когда. :(
❤16🔥5