GameTalk: как научить LLM выигрывать в переговорах
LLM умеют поддерживать диалог, но в переговорах, где важно удержать цель и выиграть, многие модели сдуваются. Их обычно учат оценивать отдельные реплики, а в реальной стратегии решает не один удачный ход, а то, чем закончится вся серия реплик.
GameTalk предлагает смотреть на диалог как на игру с длинной дистанцией: награда приходит в конце, когда уже ясно, удалось ли склонить оппонента, заработать больше или договориться на своих условиях. И тут начинается самое интересное: модель может стать заметно сильнее в переговорах, но при этом иногда делает это странным способом — почти без глубокого понимания собеседника, зато с рабочими приемами влияния.
В полном обзоре разберемся, как авторы обучают такие модели на контролируемых играх, почему они разводят диалог на параллельные ветки и чем отличаются методы дообучения GRPO, DPO и STaR на практике.
📜 Полный обзор
LLM умеют поддерживать диалог, но в переговорах, где важно удержать цель и выиграть, многие модели сдуваются. Их обычно учат оценивать отдельные реплики, а в реальной стратегии решает не один удачный ход, а то, чем закончится вся серия реплик.
GameTalk предлагает смотреть на диалог как на игру с длинной дистанцией: награда приходит в конце, когда уже ясно, удалось ли склонить оппонента, заработать больше или договориться на своих условиях. И тут начинается самое интересное: модель может стать заметно сильнее в переговорах, но при этом иногда делает это странным способом — почти без глубокого понимания собеседника, зато с рабочими приемами влияния.
В полном обзоре разберемся, как авторы обучают такие модели на контролируемых играх, почему они разводят диалог на параллельные ветки и чем отличаются методы дообучения GRPO, DPO и STaR на практике.
📜 Полный обзор
Telegraph
GameTalk: как научить LLM выигрывать в переговорах
LLM умеют поддерживать диалог, но стоит перенести их в мультиагентную систему, где нужно договариваться, давить, уступать, обманывать и помнить цель на протяжении всей беседы, — сразу начинаются проблемы. Одна из главных проблем в том, что большинство способов…
👍3❤1
Как LLM помогают дата инженерам наводить порядок в «грязных» данных
Проблема грязных данных стара как мир: даты в разных форматах, один и тот же клиент в пяти вариантах, пустые поля, странные опечатки и колонки с названиями, которые ничего не объясняют. Из-за этого аналитика и ML-пайплайны врут, а команда неделями «чистит» данные вручную правилами и скриптами.
Но тут появляется неожиданный поворот: LLM могут наводить порядок не хуже опытного дата-инженера, потому что понимают смысл. Они способны догадаться, что «7th April 2021» и «04/07/21» — одно и то же, что «price» и «cost» могут быть одной сущностью, и даже дополнять таблицы контекстом. Вопрос только в том, где это реально работает, а где модель начнет уверенно придумывать лишнее и станет слишком дорогой.
В полном обзоре разберем, как LLM применяют для трех больших задач — очистки, интеграции и обогащения данных — и какие есть рабочие методы: от простых промтов до агентных систем с инструментами и проверками, плюс честные ограничения и риски.
📜 Полный обзор
Проблема грязных данных стара как мир: даты в разных форматах, один и тот же клиент в пяти вариантах, пустые поля, странные опечатки и колонки с названиями, которые ничего не объясняют. Из-за этого аналитика и ML-пайплайны врут, а команда неделями «чистит» данные вручную правилами и скриптами.
Но тут появляется неожиданный поворот: LLM могут наводить порядок не хуже опытного дата-инженера, потому что понимают смысл. Они способны догадаться, что «7th April 2021» и «04/07/21» — одно и то же, что «price» и «cost» могут быть одной сущностью, и даже дополнять таблицы контекстом. Вопрос только в том, где это реально работает, а где модель начнет уверенно придумывать лишнее и станет слишком дорогой.
В полном обзоре разберем, как LLM применяют для трех больших задач — очистки, интеграции и обогащения данных — и какие есть рабочие методы: от простых промтов до агентных систем с инструментами и проверками, плюс честные ограничения и риски.
📜 Полный обзор
Telegraph
Как LLM помогают дата инженерам наводить порядок в «грязных» данных
В компаниях есть одна общая проблема: данные в таблицах и базах устроены так, что ими сложно пользоваться. Форматы скачут, значения противоречат друг другу, части полей пустые, а разные источники называют одно и то же разными словами. В итоге аналитики тратят…
❤2👍2🔥1
Open-source наносит ответный удар: Управляемая симуляция мира, которая работает в реальном времени
Text-to-video модели умеют генерировать впечатляющие видео, но попробуйте попросить их пройти вперёд, оглянуться и вернуться — и мир внезапно забывает, где что стояло. Объекты плывут, детали меняются местами, а причинно‑следственная логика уступает удачным совпадениям. Пока это больше клип, чем пространство, в котором можно действовать.
LingBot-World пытается решить именно эту проблему: превратить генерацию видео в управляемую симуляцию, где есть клавиши движения, повороты камеры и ощущение, что мир действительно держится за свои правила. Самое интересное тут не только в качестве картинки, а в том, как они добывают данные с привязкой к действию и реакции, и как ускоряют тяжёлую diffusion-модель до почти реального времени, причём в open-source.
В полном обзоре узнаем из каких источников собирают «опыт» для такого мира, как модель учат помнить сцену на длинных траекториях и зачем им Mixture-of-Experts.
📜 Полный обзор
Text-to-video модели умеют генерировать впечатляющие видео, но попробуйте попросить их пройти вперёд, оглянуться и вернуться — и мир внезапно забывает, где что стояло. Объекты плывут, детали меняются местами, а причинно‑следственная логика уступает удачным совпадениям. Пока это больше клип, чем пространство, в котором можно действовать.
LingBot-World пытается решить именно эту проблему: превратить генерацию видео в управляемую симуляцию, где есть клавиши движения, повороты камеры и ощущение, что мир действительно держится за свои правила. Самое интересное тут не только в качестве картинки, а в том, как они добывают данные с привязкой к действию и реакции, и как ускоряют тяжёлую diffusion-модель до почти реального времени, причём в open-source.
В полном обзоре узнаем из каких источников собирают «опыт» для такого мира, как модель учат помнить сцену на длинных траекториях и зачем им Mixture-of-Experts.
📜 Полный обзор
Telegraph
Open-source наносит ответный удар: Управляемая симуляция мира, которая работает в реальном времени
Ещё недавно модели научились генерировать видео по тексту с несколькими секундами связного движения. Но стоит попросить такую систему пройти вперёд, оглянуться и вернуться к знакомому объекту — чуда не происходит. Объекты меняются местами, детали «плывут»…
👍1
Когда агенту нужен дирижёр: AOrchestra и динамическая оркестрация LLM через субагентов
Один ИИ‑агент отлично справляется с задачами из пары шагов: что-то найти, написать, поправить. Но когда работа превращается в длинный квест с проверками, откатами, запуском команд и исправлением ошибок, он начинает теряться. Контекст раздувается, важное тонет в информационном шуме, и вместо прогресса агент занимается тем, что пытается вспомнить, где он остановился.
Есть привычный ответ: сделать мультиагентную систему с ролями вроде исследователя, кодера и ревьюера. Проблема в том, что такие роли быстро превращаются в болтливую бюрократию и требуют ручной настройки. А что если команда будет собираться на лету — ровно под текущий шаг, с нужными инструментами, кусочком контекста и даже подходящей по цене и силе моделью?
В обзоре разберём AOrchestra: как устроен оркестратор, который сам ничего не делает руками, зато создаёт субагентов по запросу, почему это помогает на известных бенчмарках GAIA, Terminal‑Bench и SWE‑Bench, и как здесь впервые становится реально управлять балансом между стоимостью и качеством.
📜 Полный обзор
Один ИИ‑агент отлично справляется с задачами из пары шагов: что-то найти, написать, поправить. Но когда работа превращается в длинный квест с проверками, откатами, запуском команд и исправлением ошибок, он начинает теряться. Контекст раздувается, важное тонет в информационном шуме, и вместо прогресса агент занимается тем, что пытается вспомнить, где он остановился.
Есть привычный ответ: сделать мультиагентную систему с ролями вроде исследователя, кодера и ревьюера. Проблема в том, что такие роли быстро превращаются в болтливую бюрократию и требуют ручной настройки. А что если команда будет собираться на лету — ровно под текущий шаг, с нужными инструментами, кусочком контекста и даже подходящей по цене и силе моделью?
В обзоре разберём AOrchestra: как устроен оркестратор, который сам ничего не делает руками, зато создаёт субагентов по запросу, почему это помогает на известных бенчмарках GAIA, Terminal‑Bench и SWE‑Bench, и как здесь впервые становится реально управлять балансом между стоимостью и качеством.
📜 Полный обзор
Telegraph
Когда агенту нужен дирижёр: AOrchestra и динамическая оркестрация LLM через субагентов
LLM‑агенты не справляются, когда задача растягивается на десятки шагов — с проверками, возвратами, экспериментами, запуском команд и исправлением ошибок. Контекст раздувается, в нём накапливается шум, важные детали теряются, а сам агент тратит время не на…
🔥2👏1
От симуляции к пониманию: как собрать настоящую модель мира
Сегодня почти любой новый ИИ-проект легко назвать моделью мира: добавили побольше данных, натренировали на физику, подкрутили бенчмарк и получили красивые результаты. Но когда такой ИИ сталкивается с реальностью, начинаются странности: на картинке может упорно видеть пять пальцев там, где их шесть, в видео объекты теряются между кадрами, а в задачах для роботов и автономного вождения система вдруг становится непредсказуемой.
Интрига в том, что проблема не в том, что ИИ мало знает. Проблема в том, что знания часто просто прикручены к конкретной задаче и не складываются в цельную картину: без памяти на длинной дистанции, без умения проверять гипотезы действием и без внутренней согласованности причин и последствий.
Давайте разберёмся, почему исследователи называют это ловушкой инъекции знаний, чем настоящая модель мира отличается от набора прокачанных навыков и из каких обязательных частей, по их мнению, должна состоять система, которая действительно начинает понимать, как устроена реальность.
📜 Полный обзор
Сегодня почти любой новый ИИ-проект легко назвать моделью мира: добавили побольше данных, натренировали на физику, подкрутили бенчмарк и получили красивые результаты. Но когда такой ИИ сталкивается с реальностью, начинаются странности: на картинке может упорно видеть пять пальцев там, где их шесть, в видео объекты теряются между кадрами, а в задачах для роботов и автономного вождения система вдруг становится непредсказуемой.
Интрига в том, что проблема не в том, что ИИ мало знает. Проблема в том, что знания часто просто прикручены к конкретной задаче и не складываются в цельную картину: без памяти на длинной дистанции, без умения проверять гипотезы действием и без внутренней согласованности причин и последствий.
Давайте разберёмся, почему исследователи называют это ловушкой инъекции знаний, чем настоящая модель мира отличается от набора прокачанных навыков и из каких обязательных частей, по их мнению, должна состоять система, которая действительно начинает понимать, как устроена реальность.
📜 Полный обзор
Telegraph
От симуляции к пониманию: как собрать настоящую модель мира
«Знания о мире» — это не модель мира В последние пару лет стало модно говорить о моделях мира: системах, которые не просто продолжают текст или дорисовывают кадры, а хоть немного понимают, как устроена реальность и как она меняется во времени. Авторы статьи…
🔥2👍1
Не один агент, а целая команда: мультиагентный подход к автономной разработке
LLM уже неплохо помогают генерировать код, объяснять ошибки, накидать тест. Но как только задача становится похожа на настоящую работу в репозитории — прочитать issue, разобраться в проекте, воспроизвести баг, сделать патч и не сломать всё остальное — один универсальный агент не справляется с задачей. Проблема часто не в том, что модель «слабая», а в том, что мы просим её работать не так, как обычно работает разработка.
А что если вместо супер-агента собрать маленькую команду: один анализирует и формулирует план, другой правит код и гоняет тесты, третий делает ревью прямо в pull request, а четвертый следит, чтобы процесс не расползался? Именно так устроен Agyn: мультиагентная система, которая пытается чинить баги как мини-разработка на GitHub, с ролями, изолированными окружениями и понятными правилами завершения работы.
В полном обзоре разберём, как устроены эти роли, почему GitHub-native подход оказался важнее «умной болтовни в чате», и как Agyn показывает конкурентный результат на SWE-bench.
📜 Полный обзор
LLM уже неплохо помогают генерировать код, объяснять ошибки, накидать тест. Но как только задача становится похожа на настоящую работу в репозитории — прочитать issue, разобраться в проекте, воспроизвести баг, сделать патч и не сломать всё остальное — один универсальный агент не справляется с задачей. Проблема часто не в том, что модель «слабая», а в том, что мы просим её работать не так, как обычно работает разработка.
А что если вместо супер-агента собрать маленькую команду: один анализирует и формулирует план, другой правит код и гоняет тесты, третий делает ревью прямо в pull request, а четвертый следит, чтобы процесс не расползался? Именно так устроен Agyn: мультиагентная система, которая пытается чинить баги как мини-разработка на GitHub, с ролями, изолированными окружениями и понятными правилами завершения работы.
В полном обзоре разберём, как устроены эти роли, почему GitHub-native подход оказался важнее «умной болтовни в чате», и как Agyn показывает конкурентный результат на SWE-bench.
📜 Полный обзор
Telegraph
Не один агент, а целая команда: мультиагентный подход к автономной разработке
LLM могут подсказать кусок кода, объяснить ошибку или написать тест. Но как только задача становится похожа на реальную работу разработчиков — прочитать issue, разобраться в проекте, воспроизвести баг, сделать патч и не сломать остальное — один универсальный…
👍3
Как ИИ-ассистенты незаметно лишают нас самостоятельности
Мы всё чаще отдаём ИИ то, что раньше делали сами: сформулировать мысль, выбрать слова, решить, кто прав, а что «нормально». Это удобно и быстро, но есть побочный эффект: помощник может взять на себя не только рутину, но и нашу способность разбираться в реальности, делать моральные выводы и принимать решения по-своему.
Ассистент уверенно подтверждает тревожную картину мира, выносит вердикт в споре или пишет готовые сообщения так гладко, что хочется отправить их без правок. И именно такие ответы, по данным исследователей, люди нередко оценивают выше остальных.
В полном обзоре разберём исследование из 1,5 миллионах реальных диалогов: какие паттерны лишения самостоятельности нашли авторы, где они встречаются чаще всего и почему лайки могут подталкивать ассистентов быть слишком авторитарным — особенно в личных темах.
📜 Полный обзор
Мы всё чаще отдаём ИИ то, что раньше делали сами: сформулировать мысль, выбрать слова, решить, кто прав, а что «нормально». Это удобно и быстро, но есть побочный эффект: помощник может взять на себя не только рутину, но и нашу способность разбираться в реальности, делать моральные выводы и принимать решения по-своему.
Ассистент уверенно подтверждает тревожную картину мира, выносит вердикт в споре или пишет готовые сообщения так гладко, что хочется отправить их без правок. И именно такие ответы, по данным исследователей, люди нередко оценивают выше остальных.
В полном обзоре разберём исследование из 1,5 миллионах реальных диалогов: какие паттерны лишения самостоятельности нашли авторы, где они встречаются чаще всего и почему лайки могут подталкивать ассистентов быть слишком авторитарным — особенно в личных темах.
📜 Полный обзор
Telegraph
Как ИИ-ассистенты незаметно лишают нас самостоятельности
AI‑ассистенты уже не просто отвечают на вопросы. Мы советуемся с ними о работе, отношениях, здоровье, просим помочь сформулировать сложное сообщение или принять решение. И в целом это удобно. Но есть и обратная сторона: иногда помощь устроена так, что человек…
😱3👀1
Коллективное поведение ИИ-агентов в социальных дилеммах: почему умные агенты разрушают общее благо
Мы уже привыкли измерять ИИ-агентов по одиночным тестам: как пишет код, как планирует задачи, хорошо ли торгует. Но в реальной жизни они почти никогда не работают в одиночку. Они сталкиваются друг с другом, конкурируют за ограниченные ресурсы и незаметно могут толкать систему в режим, где всем становится хуже — просто потому что так выгоднее каждому агенту по отдельности.
Самое неприятное в том, что умные агенты не всегда действуют на общественное благо. В новом исследовании сотни LLM-агентов запускают в классические социальные дилеммы — и иногда это оборачивается катастрофой. Причем именно продвинутые reasoning-модели порой быстрее находят способы выиграть индивидуально, паразитируя на кооперации остальных.
В полном обзоре разберем, как ученые заставили модели придумывать целые стратегии, как они измеряли «характер» этих стратегий и почему при росте группы рынок и конкуренция могут естественно отбирать худшее поведение, даже если все вроде бы хотели обратного.
📜 Полный обзор
Мы уже привыкли измерять ИИ-агентов по одиночным тестам: как пишет код, как планирует задачи, хорошо ли торгует. Но в реальной жизни они почти никогда не работают в одиночку. Они сталкиваются друг с другом, конкурируют за ограниченные ресурсы и незаметно могут толкать систему в режим, где всем становится хуже — просто потому что так выгоднее каждому агенту по отдельности.
Самое неприятное в том, что умные агенты не всегда действуют на общественное благо. В новом исследовании сотни LLM-агентов запускают в классические социальные дилеммы — и иногда это оборачивается катастрофой. Причем именно продвинутые reasoning-модели порой быстрее находят способы выиграть индивидуально, паразитируя на кооперации остальных.
В полном обзоре разберем, как ученые заставили модели придумывать целые стратегии, как они измеряли «характер» этих стратегий и почему при росте группы рынок и конкуренция могут естественно отбирать худшее поведение, даже если все вроде бы хотели обратного.
📜 Полный обзор
Telegraph
Коллективное поведение ИИ-агентов в социальных дилеммах: почему умные агенты разрушают общее благо
Пока автономные LLM-агенты берут на себя задачи людей — от переговоров с сервисами до управления ресурсами в компаниях, — мы привыкли оценивать их по одиночным тестам. Нас интересует, как хорошо модель пишет код, отвечает на вопросы или планирует. Но в реальном…
😱2👍1
Иллюзия социализации: урок Moltbook для будущего интернета
Мы всё чаще слышим: дайте ИИ-агентам общаться подольше, соедините их в сеть — и рано или поздно получится что-то похожее на человеческое сообщество. Правила, авторитеты, общая память, коллективные предпочтения. Логика кажется железной, особенно когда речь про миллионы участников, посты, комментарии и систему лайков.
Но вот странность: на платформе Moltbook, где в «соцсети» сидят только автономные ИИ-агенты, это почему-то не сработало. Активность бурлит, разговоров море, темы меняются — а ощущение, что никто ни на кого по-настоящему не влияет. Как так выходит, что при огромном масштабе не появляется ни устойчивых лидеров, ни общих ориентиров, ни привычной социализации?
В полном обзоре разберём, как исследователи измеряли это на реальных данных Moltbook и что именно сломалось в механике общения, из-за чего миллионы ИИ так и не сложились в общество.
📜 Полный обзор
Мы всё чаще слышим: дайте ИИ-агентам общаться подольше, соедините их в сеть — и рано или поздно получится что-то похожее на человеческое сообщество. Правила, авторитеты, общая память, коллективные предпочтения. Логика кажется железной, особенно когда речь про миллионы участников, посты, комментарии и систему лайков.
Но вот странность: на платформе Moltbook, где в «соцсети» сидят только автономные ИИ-агенты, это почему-то не сработало. Активность бурлит, разговоров море, темы меняются — а ощущение, что никто ни на кого по-настоящему не влияет. Как так выходит, что при огромном масштабе не появляется ни устойчивых лидеров, ни общих ориентиров, ни привычной социализации?
В полном обзоре разберём, как исследователи измеряли это на реальных данных Moltbook и что именно сломалось в механике общения, из-за чего миллионы ИИ так и не сложились в общество.
📜 Полный обзор
Telegraph
Иллюзия социализации: урок Moltbook для будущего интернета
Когда миллионы ИИ-агентов общаются, становится ли это обществом? Сегодня LLM‑агенты живут в сетевых средах, где они пишут посты, спорят в комментариях и ставят оценки друг другу. Интуитивно кажется: если дать таким агентам достаточно времени и достаточно…
⚡3
Когда контекст мешает: почему AGENTS.md делает работу агентов хуже
Кажется логичным: добавляешь в репозиторий AGENTS.md с правилами сборки, тестов и стиля, и агент для кода сразу меньше тупит, быстрее чинит баги и аккуратнее вносит фичи. Эту практику уже разнесло по open-source, а многие инструменты вообще предлагают сгенерировать такой файл одной командой.
Но есть нюанс: подсказки могут не помогать, а мешать. В свежем исследовании проверили три режима на реальных задачах уровня репозитория: без файла, с автосгенерированным и с тем, что написали сами разработчики. И выяснилось странное: агент начинает вести себя более дисциплинированно, больше проверяет и больше делает правильных действий… но при этом чаще тратит бюджет и не всегда решает задачу лучше.
В обзоре разберем, как именно это тестировали, почему автогенерация часто делает работу дороже и хуже, когда такие файлы все-таки реально спасают, и что стоит писать в AGENTS.md, чтобы он помогал, а не тормозил.
📜 Полный обзор
Кажется логичным: добавляешь в репозиторий AGENTS.md с правилами сборки, тестов и стиля, и агент для кода сразу меньше тупит, быстрее чинит баги и аккуратнее вносит фичи. Эту практику уже разнесло по open-source, а многие инструменты вообще предлагают сгенерировать такой файл одной командой.
Но есть нюанс: подсказки могут не помогать, а мешать. В свежем исследовании проверили три режима на реальных задачах уровня репозитория: без файла, с автосгенерированным и с тем, что написали сами разработчики. И выяснилось странное: агент начинает вести себя более дисциплинированно, больше проверяет и больше делает правильных действий… но при этом чаще тратит бюджет и не всегда решает задачу лучше.
В обзоре разберем, как именно это тестировали, почему автогенерация часто делает работу дороже и хуже, когда такие файлы все-таки реально спасают, и что стоит писать в AGENTS.md, чтобы он помогал, а не тормозил.
📜 Полный обзор
Telegraph
Когда контекст мешает: почему AGENTS.md делает работу агентов хуже
Идея кажется очевидной: если агенту для программирования дать специальный файл с правилами репозитория — как собирать проект, как гонять тесты, какие есть договорённости по стилю и структуре — он будет работать увереннее и реже ошибаться. Такие файлы часто…
👍1
Интерфейс как среда: модель мира для офисных ИИ-агентов
Офисные приложения кажутся спокойной средой: кнопки на месте, всё предсказуемо. Но для ИИ-агента один клик не туда легко ломает всю цепочку действий: документ портится, нужная панель пропадает, а откат работает не всегда и часто стоит времени и нервов. В реальном интерфейсе нельзя безопасно экспериментировать, как в симуляторе.
И вот вопрос: а что если агент сможет сначала мысленно прогнать последствия каждого варианта, увидеть, как изменится экран, и только потом нажать? Не угадывать вслепую, а действовать осторожно, как человек, который заранее понимает, что откроется и что именно поменяется.
Давайте разберем CUWM — модель мира для desktop-интерфейсов, которая учит агента сначала коротко объяснять, что изменится в UI, а затем достраивать следующий скриншот. И главное — как это реально работает в Excel и PowerPoint.
📜 Полный обзор
Офисные приложения кажутся спокойной средой: кнопки на месте, всё предсказуемо. Но для ИИ-агента один клик не туда легко ломает всю цепочку действий: документ портится, нужная панель пропадает, а откат работает не всегда и часто стоит времени и нервов. В реальном интерфейсе нельзя безопасно экспериментировать, как в симуляторе.
И вот вопрос: а что если агент сможет сначала мысленно прогнать последствия каждого варианта, увидеть, как изменится экран, и только потом нажать? Не угадывать вслепую, а действовать осторожно, как человек, который заранее понимает, что откроется и что именно поменяется.
Давайте разберем CUWM — модель мира для desktop-интерфейсов, которая учит агента сначала коротко объяснять, что изменится в UI, а затем достраивать следующий скриншот. И главное — как это реально работает в Excel и PowerPoint.
📜 Полный обзор
Telegraph
Интерфейс как среда: модель мира для офисных ИИ-агентов
Мы привыкли думать, что работа в офисных приложениях предсказуема: интерфейс детерминированный, кнопки на месте, всё должно быть «как всегда». Но для ИИ-агента, который выполняет длинные цепочки действий в Word, Excel или PowerPoint, реальность куда жестче.…
👍2
Code2Worlds: LLM как движок мира — как ИИ начинает симулировать реальность
Генеративные модели уже умеют создавать красивое видео, но у него есть слабое место: картинка не обязана подчиняться законам физики. Предметы могут летать без опоры, вода течь не туда, а столкновения работать как попало. Для роботов, симуляций и вообще пространственного ИИ этого недостаточно — нужен мир, который не просто выглядит убедительно, а ведёт себя так, будто внутри физика реального мира.
Теперь вместо того чтобы просить модель рисовать движение на глаз, ей предлагают писать код для симулятора. То есть не угадывать, как должно колыхаться дерево на ветру, а задать параметры, запустить симуляцию, посмотреть, что вышло, и поправить ошибки — почти как инженер, который отлаживает программу.
Узнаем побольше о Code2Worlds: как там разделяют сцену на объект и окружение, зачем нужен замкнутый цикл с критиком, и почему такой подход заметно снижает физические артефакты по сравнению с видео-диффузией.
📜 Полный обзор
Генеративные модели уже умеют создавать красивое видео, но у него есть слабое место: картинка не обязана подчиняться законам физики. Предметы могут летать без опоры, вода течь не туда, а столкновения работать как попало. Для роботов, симуляций и вообще пространственного ИИ этого недостаточно — нужен мир, который не просто выглядит убедительно, а ведёт себя так, будто внутри физика реального мира.
Теперь вместо того чтобы просить модель рисовать движение на глаз, ей предлагают писать код для симулятора. То есть не угадывать, как должно колыхаться дерево на ветру, а задать параметры, запустить симуляцию, посмотреть, что вышло, и поправить ошибки — почти как инженер, который отлаживает программу.
Узнаем побольше о Code2Worlds: как там разделяют сцену на объект и окружение, зачем нужен замкнутый цикл с критиком, и почему такой подход заметно снижает физические артефакты по сравнению с видео-диффузией.
📜 Полный обзор
Telegraph
Code2Worlds: LLM как движок мира — как ИИ начинает симулировать реальность
Генеративные модели научились рисовать впечатляющие ролики, но у такого видео есть слабое место: оно не обязано подчиняться законам физики. Объект может «плыть» в воздухе, частицы — игнорировать гравитацию, а твёрдые тела — проходить друг сквозь друга. Для…
👍3
От статичных пайплайнов к адаптивным агентам:
как научить LLM выбирать действия, инструменты и бюджет под запрос
Агентные системы на базе LLM сегодня похожи на швейцарский нож. На простой вопрос модель прогоняют через тяжёлый конвейер с поиском, проверками и голосованием, тратя время и токены. А на сложной задаче, наоборот, может не хватить бюджета на рассуждение или не окажется нужного инструмента. В итоге качество прыгает, стоимость растёт, а часть полезной информации теряется в длинном контексте.
В свежей работе исследователи предлагают новую идею: проблему часто решает не новая LLM, а умение каждый раз выбирать режим работы под конкретный запрос. Но тут же возникает комбинаторный кошмар: тысячи вариантов пайплайнов, инструментов, промтов и бюджетов — вручную такое не настроишь, да и перебором слишком дорого.
В обзоре разбираем, как сделаь такой контроллер: по каким признакам он понимает, когда нужен поиск и проверки, как балансирует точность и цену, и почему это даёт заметный прирост на бенчмарках без дообучения самой базовой модели.
📜 Полный обзор
как научить LLM выбирать действия, инструменты и бюджет под запрос
Агентные системы на базе LLM сегодня похожи на швейцарский нож. На простой вопрос модель прогоняют через тяжёлый конвейер с поиском, проверками и голосованием, тратя время и токены. А на сложной задаче, наоборот, может не хватить бюджета на рассуждение или не окажется нужного инструмента. В итоге качество прыгает, стоимость растёт, а часть полезной информации теряется в длинном контексте.
В свежей работе исследователи предлагают новую идею: проблему часто решает не новая LLM, а умение каждый раз выбирать режим работы под конкретный запрос. Но тут же возникает комбинаторный кошмар: тысячи вариантов пайплайнов, инструментов, промтов и бюджетов — вручную такое не настроишь, да и перебором слишком дорого.
В обзоре разбираем, как сделаь такой контроллер: по каким признакам он понимает, когда нужен поиск и проверки, как балансирует точность и цену, и почему это даёт заметный прирост на бенчмарках без дообучения самой базовой модели.
📜 Полный обзор
Dataism Science Hub
От статичных пайплайнов к адаптивным агентам | Dataism Science Hub
Как научить LLM выбирать действия, инструменты и бюджет под запрос. Разбор контроллера ARC.
🔥1
От восприятия к визуальному мышлению:
как добавить ИИ внутреннее «воображение»
Мультимодальные модели умеют распознать объект на фото, прочитать подпись, ответить на вопрос по картинке. Но стоит попросить их сделать то, что человек делает почти на автомате, мысленно повернуть фигуру, продолжить узор, пройтись по схеме шаг за шагом, и уверенность у ИИ-моделей падает. Как будто ИИ видит, но не может удержать картинку «в голове» и нормально с ней поработать.
Самое интересное, что проблема не всегда в «умности» модели, а в интерфейсе мышления. Мы привыкли лечить ошибки длинными текстовыми рассуждениями, но текст плохо подходит для пространственных операций. А что если часть мышления вообще не переводить в слова?
В полном обзоре разберём работу CogSense: зачем исследователи собрали бенчмарк, который проверяет именно визуальное мышление, и как они добавили модели внутреннее латентное воображение, чтобы она не просто описывала картинку, а действительно могла мысленно симулировать и планировать действия.
📜 Полный обзор
как добавить ИИ внутреннее «воображение»
Мультимодальные модели умеют распознать объект на фото, прочитать подпись, ответить на вопрос по картинке. Но стоит попросить их сделать то, что человек делает почти на автомате, мысленно повернуть фигуру, продолжить узор, пройтись по схеме шаг за шагом, и уверенность у ИИ-моделей падает. Как будто ИИ видит, но не может удержать картинку «в голове» и нормально с ней поработать.
Самое интересное, что проблема не всегда в «умности» модели, а в интерфейсе мышления. Мы привыкли лечить ошибки длинными текстовыми рассуждениями, но текст плохо подходит для пространственных операций. А что если часть мышления вообще не переводить в слова?
В полном обзоре разберём работу CogSense: зачем исследователи собрали бенчмарк, который проверяет именно визуальное мышление, и как они добавили модели внутреннее латентное воображение, чтобы она не просто описывала картинку, а действительно могла мысленно симулировать и планировать действия.
📜 Полный обзор
Dataism Science Hub
От восприятия к визуальному мышлению: как добавить ИИ внутреннее «воображение»
За последние годы мультимодальные LLM научились распознавать объекты, но как добавить им визуальное воображение? Разбор концепции Cognitive Supersensing.
👍4🔥1
Context Engineering:
новая дисциплина для автономных ИИ-агентов
ИИ-агенты умеют сами лезть в репозиторий, править файлы, гонять тесты и собирать PR. И всё это выглядит круто ровно до момента, когда агент начинает действовать как новичок, который не читал правила команды: ломает стиль, запускает не те команды и оставляет после себя лёгкий хаос. Оказывается, проблемой становится не качество модели, а то, что у неё нет нормальной памяти о проекте.
И вот тут вместо бесконечных промтов команды начали складывать для агентов отдельные файлы-инструкции прямо в репозиторий — вроде AGENTS.md. Это уже не README для людей, а маленькая документация для машины: что здесь принято, что нельзя, как собирать, как тестировать и как не наступать на грабли.
Разберём, насколько эта практика вообще стала массовой, что реально пишут в таких файлах, почему единого шаблона до сих пор нет и как инструкции иногда эволюционируют вместе с кодом — как ещё один живой артефакт разработки.
📜 Полный обзор
новая дисциплина для автономных ИИ-агентов
ИИ-агенты умеют сами лезть в репозиторий, править файлы, гонять тесты и собирать PR. И всё это выглядит круто ровно до момента, когда агент начинает действовать как новичок, который не читал правила команды: ломает стиль, запускает не те команды и оставляет после себя лёгкий хаос. Оказывается, проблемой становится не качество модели, а то, что у неё нет нормальной памяти о проекте.
И вот тут вместо бесконечных промтов команды начали складывать для агентов отдельные файлы-инструкции прямо в репозиторий — вроде AGENTS.md. Это уже не README для людей, а маленькая документация для машины: что здесь принято, что нельзя, как собирать, как тестировать и как не наступать на грабли.
Разберём, насколько эта практика вообще стала массовой, что реально пишут в таких файлах, почему единого шаблона до сих пор нет и как инструкции иногда эволюционируют вместе с кодом — как ещё один живой артефакт разработки.
📜 Полный обзор
Dataism Science Hub
Context Engineering: новая дисциплина для автономных ИИ-агентов
От README для людей — к документации для машин. Анализ того, как разработчики пишут инструкции для ИИ-агентов в open-source репозиториях.
👍2
Теория разума для ИИ: что происходит, когда агенты начинают «догадываться» о намерениях друг друга
О мультиагентных системах на базе LLM часто думают как о команде агентов, которая сама договорится, распланирует задачи и всё сделает красиво. Но в реальности «командная работа» ломается на простых вещах: кто куда едет, что уже везёт, кому верить и как не утонуть в догадках друг о друге. Один агент пишет чёткий план, второй понимает его по‑своему, третий молчит — и вместо синхронной работы получается эффект сломанного телефона.
Самое любопытное: кажется логичным дать агентам более человеческое мышление — умение прикидывать намерения других и держать в голове внутреннюю картину мира. Но в экспериментах такие умные надстройки иногда не помогают, а скорее мешают. На одних моделях координация становится лучше, на других проседает, и причина не всегда очевидна.
Сегодня разберём симуляцию города, где три агента спасают районы ресурсами, посмотрим, как устроены общая и личная память, зачем тут логическая проверка через Clingo и почему универсального рецепта вроде добавим Theory of Mind и всё взлетит не существует.
📜 Полный обзор
О мультиагентных системах на базе LLM часто думают как о команде агентов, которая сама договорится, распланирует задачи и всё сделает красиво. Но в реальности «командная работа» ломается на простых вещах: кто куда едет, что уже везёт, кому верить и как не утонуть в догадках друг о друге. Один агент пишет чёткий план, второй понимает его по‑своему, третий молчит — и вместо синхронной работы получается эффект сломанного телефона.
Самое любопытное: кажется логичным дать агентам более человеческое мышление — умение прикидывать намерения других и держать в голове внутреннюю картину мира. Но в экспериментах такие умные надстройки иногда не помогают, а скорее мешают. На одних моделях координация становится лучше, на других проседает, и причина не всегда очевидна.
Сегодня разберём симуляцию города, где три агента спасают районы ресурсами, посмотрим, как устроены общая и личная память, зачем тут логическая проверка через Clingo и почему универсального рецепта вроде добавим Theory of Mind и всё взлетит не существует.
📜 Полный обзор
Dataism Science Hub
Теория разума для ИИ: что происходит, когда агенты начинают «догадываться» о намерениях друг друга
Оценка Theory of Mind и внутренних убеждений в мультиагентных системах на базе LLM. Станет ли координация лучше?
👍2⚡1
Почему ИИ-агенты плохо интегрируются с реальными API и как их приручить
Как только мы просим ИИ-агентов действовать в реальном мире — дернуть API, создать задачу в трекере, обновить базу, отправить сообщение в Slack — становится больно. LLM отвечает, но нужен строгий формат, четкие права доступа и предсказуемость. Один лишний символ в JSON, неверный тип поля или вольяжная формулировка — и цепочка ломается, а разработчики обрастают ретраями и костылями. Это и есть парадокс интеграции: чем умнее генерация, тем сложнее надежно встроить ее в жесткие интерфейсы.
Проблема в том, что мы пытаемся управлять софтом через текст, который по природе не обязан быть точным и повторяемым. И вот вопрос: можно ли сделать агента, которому действительно можно доверить действия в корпоративной среде?
Разберем, как Auton Agentic AI Framework предлагает приручить стохастику: разделить агента на проверяемую спецификацию и рантайм-исполнитель, ввести контракты вывода, встроенные ограничения безопасности и память, а заодно все это ускорить.
📜 Полный обзор
Как только мы просим ИИ-агентов действовать в реальном мире — дернуть API, создать задачу в трекере, обновить базу, отправить сообщение в Slack — становится больно. LLM отвечает, но нужен строгий формат, четкие права доступа и предсказуемость. Один лишний символ в JSON, неверный тип поля или вольяжная формулировка — и цепочка ломается, а разработчики обрастают ретраями и костылями. Это и есть парадокс интеграции: чем умнее генерация, тем сложнее надежно встроить ее в жесткие интерфейсы.
Проблема в том, что мы пытаемся управлять софтом через текст, который по природе не обязан быть точным и повторяемым. И вот вопрос: можно ли сделать агента, которому действительно можно доверить действия в корпоративной среде?
Разберем, как Auton Agentic AI Framework предлагает приручить стохастику: разделить агента на проверяемую спецификацию и рантайм-исполнитель, ввести контракты вывода, встроенные ограничения безопасности и память, а заодно все это ускорить.
📜 Полный обзор
Dataism Science Hub
Почему ИИ-агенты плохо интегрируются с реальными API и как их приручить
Auton Agentic AI Framework: как перевести агентов со стохастичной генерации на проверяемые контракты и спецификации.
👍3🔥1
Всё, что нужно знать об обучении агентов простыми словами
Мы привыкли измерять эффективность LLM по одному ответу: получил лайк или штраф, и на этом всё. Но в реальных задачах так не бывает. Нужно действовать цепочкой шагов: поискать информацию, вызвать инструмент, проверить себя, запомнить важное, исправить ошибку и только потом дойти до результата. И тут есть проблема.
Сегодня исследователи рассматривают LLM как агента в среде. Награда приходит за то, что задача реально решена. Отсюда и самый интересный вопрос: как научить модель не просто отвечать, а вести себя устойчиво, когда информационный мир шумный, шагов много, а результат видно только в конце.
В обзоре рассмотрим, что такое агентное обучение с подкреплением простыми словами, почему здесь важна траектория действий, где это уже даёт мощные результаты (например, в коде), и какие проблемы всё ещё мешают агентам стать по-настоящему надёжными.
📜 Полный обзор
Мы привыкли измерять эффективность LLM по одному ответу: получил лайк или штраф, и на этом всё. Но в реальных задачах так не бывает. Нужно действовать цепочкой шагов: поискать информацию, вызвать инструмент, проверить себя, запомнить важное, исправить ошибку и только потом дойти до результата. И тут есть проблема.
Сегодня исследователи рассматривают LLM как агента в среде. Награда приходит за то, что задача реально решена. Отсюда и самый интересный вопрос: как научить модель не просто отвечать, а вести себя устойчиво, когда информационный мир шумный, шагов много, а результат видно только в конце.
В обзоре рассмотрим, что такое агентное обучение с подкреплением простыми словами, почему здесь важна траектория действий, где это уже даёт мощные результаты (например, в коде), и какие проблемы всё ещё мешают агентам стать по-настоящему надёжными.
📜 Полный обзор
Dataism Science Hub
Всё, что нужно знать об обучении агентов простыми словами
Как обучение с подкреплением (RL) используется не только для «хорошего ответа», а для устойчивого поведения в динамических условиях.
👍3
ИИ как коллективный разум: куда ведёт эпоха агентных систем
Мы привыкли думать о будущем ИИ как о появлении одного сверхразума: будто где-то родится один монстр, который станет умнее всех и быстро разгонит себя до недосягаемого уровня. Но в реальности главная проблема другая: как управлять не одним умным мозгом, а целой толпой ИИ-агентов, которые берут роли, спорят, проверяют друг друга и лезут в задачи вроде найма, судов и распределения ресурсов.
Самое интересное, что зачатки этого общества видны уже внутри современных рассуждающих моделей. Они улучшаются не только потому, что дольше думают, а потому что внутри появляется что-то похожее на мини-дискуссию: разные версии ответа, сомнения, проверки, согласование. Как будто модель собирает маленькую команду прямо у себя в голове.
В полной версии разберём, почему «взрыв интеллекта» больше похож на рост города, чем на пробуждение одного гения, как из этого вытекают гибридные воркфлоу и сообщества агентов, и почему следующий слой безопасности — это не дрессировка модели, а правила и институты, которые заставляют системы сдерживать друг друга.
📜 Полный обзор
Мы привыкли думать о будущем ИИ как о появлении одного сверхразума: будто где-то родится один монстр, который станет умнее всех и быстро разгонит себя до недосягаемого уровня. Но в реальности главная проблема другая: как управлять не одним умным мозгом, а целой толпой ИИ-агентов, которые берут роли, спорят, проверяют друг друга и лезут в задачи вроде найма, судов и распределения ресурсов.
Самое интересное, что зачатки этого общества видны уже внутри современных рассуждающих моделей. Они улучшаются не только потому, что дольше думают, а потому что внутри появляется что-то похожее на мини-дискуссию: разные версии ответа, сомнения, проверки, согласование. Как будто модель собирает маленькую команду прямо у себя в голове.
В полной версии разберём, почему «взрыв интеллекта» больше похож на рост города, чем на пробуждение одного гения, как из этого вытекают гибридные воркфлоу и сообщества агентов, и почему следующий слой безопасности — это не дрессировка модели, а правила и институты, которые заставляют системы сдерживать друг друга.
📜 Полный обзор
Dataism Science Hub
ИИ как коллективный разум: куда ведёт эпоха агентных систем
Следующий «взрыв интеллекта» будет ростом сложной социальной системы — множества ИИ-агентов, людей и гибридных «кентавров», которые вместе образуют новый слой коллективного мышления.
Ваша LLM умнее, чем кажется — вы просто используете ее неправильно
Мы привыкли мерить модели по количеству параметров, размерам датасетов и изысканности архитектуры. Но в реальных продуктах часто решает другое — обвязка вокруг LLM: что она запоминает, как достаёт контекст, когда вызывает инструменты и как ведёт многошаговый процесс. И вот тут обычно начинается ручная работа: бесконечные правки, эвристики, дебаг по логам и дорогие итерации.
Самое неприятное, что хорошая или плохая обвязки могут дать разницу в разы даже на одной и той же модели. А привычные способы оптимизации промтов почти не помогают: они видят только итоговую оценку, а ошибки в памяти или retrieval могут всплыть через 20 шагов, когда уже поздно гадать, где всё поехало.
В обзоре разберём Meta-Harness — подход, где ИИ улучшает исполняемый код, опираясь на трейсы прошлых прогонов. И посмотрим, что будет, если дать агенту доступ ко всей истории экспериментов.
📜 Полный обзор
Мы привыкли мерить модели по количеству параметров, размерам датасетов и изысканности архитектуры. Но в реальных продуктах часто решает другое — обвязка вокруг LLM: что она запоминает, как достаёт контекст, когда вызывает инструменты и как ведёт многошаговый процесс. И вот тут обычно начинается ручная работа: бесконечные правки, эвристики, дебаг по логам и дорогие итерации.
Самое неприятное, что хорошая или плохая обвязки могут дать разницу в разы даже на одной и той же модели. А привычные способы оптимизации промтов почти не помогают: они видят только итоговую оценку, а ошибки в памяти или retrieval могут всплыть через 20 шагов, когда уже поздно гадать, где всё поехало.
В обзоре разберём Meta-Harness — подход, где ИИ улучшает исполняемый код, опираясь на трейсы прошлых прогонов. И посмотрим, что будет, если дать агенту доступ ко всей истории экспериментов.
📜 Полный обзор
Dataism Science Hub
Ваша LLM умнее, чем кажется — вы просто используете ее неправильно
Когда важен не только мозг, но и «обвязка» вокруг него. Как Meta-Harness автоматизирует создание harness для LLM.
ИИ не может запустить стартап — и вот почему
ИИ-агенты бодро решают короткие задачи, когда надо нажать пару кнопок, вызвать инструмент и выдать ответ. Но как только работа растягивается на сотни шагов, они начинают сыпаться: ранняя мелкая ошибка тянет за собой цепочку проблем, обратная связь приходит слишком поздно, а важные детали просто вымываются из контекста.
В новом бенчмарке ycbench агент целый год управляет симулированным стартапом: контракты, дедлайны, зарплаты и риски. И примерно треть клиентов там раздувают объём работ так, что компания уходит в минус. Поймать этот паттерн можно только одним способом — заметить, запомнить и не забыть применить позже.
В обзоре разберу, как устроен ycbench, почему лучшим фактором успеха оказались регулярные заметки в памяти, и какие модели реально работают на долгосрочных задачах.
📜 Полный обзор
ИИ-агенты бодро решают короткие задачи, когда надо нажать пару кнопок, вызвать инструмент и выдать ответ. Но как только работа растягивается на сотни шагов, они начинают сыпаться: ранняя мелкая ошибка тянет за собой цепочку проблем, обратная связь приходит слишком поздно, а важные детали просто вымываются из контекста.
В новом бенчмарке ycbench агент целый год управляет симулированным стартапом: контракты, дедлайны, зарплаты и риски. И примерно треть клиентов там раздувают объём работ так, что компания уходит в минус. Поймать этот паттерн можно только одним способом — заметить, запомнить и не забыть применить позже.
В обзоре разберу, как устроен ycbench, почему лучшим фактором успеха оказались регулярные заметки в памяти, и какие модели реально работают на долгосрочных задачах.
📜 Полный обзор
Dataism Science Hub
ИИ не может запустить стартап — и вот почему
Агенты хорошо справляются с короткими задачами, но на длинной дистанции их подводят память, непоследовательность и неумение следовать стратегии.
🔥3