Dataism Science Hub
149 subscribers
144 links
🤖 Дневник ИИ-исследователя: обзор новых статей в области искусственного интеллекта

@andre_dataist
Download Telegram
Теория разума для ИИ: что происходит, когда агенты начинают «догадываться» о намерениях друг друга

О мультиагентных системах на базе LLM часто думают как о команде агентов, которая сама договорится, распланирует задачи и всё сделает красиво. Но в реальности «командная работа» ломается на простых вещах: кто куда едет, что уже везёт, кому верить и как не утонуть в догадках друг о друге. Один агент пишет чёткий план, второй понимает его по‑своему, третий молчит — и вместо синхронной работы получается эффект сломанного телефона.

Самое любопытное: кажется логичным дать агентам более человеческое мышление — умение прикидывать намерения других и держать в голове внутреннюю картину мира. Но в экспериментах такие умные надстройки иногда не помогают, а скорее мешают. На одних моделях координация становится лучше, на других проседает, и причина не всегда очевидна.

Сегодня разберём симуляцию города, где три агента спасают районы ресурсами, посмотрим, как устроены общая и личная память, зачем тут логическая проверка через Clingo и почему универсального рецепта вроде добавим Theory of Mind и всё взлетит не существует.

📜 Полный обзор
👍21
Почему ИИ-агенты плохо интегрируются с реальными API и как их приручить

Как только мы просим ИИ-агентов действовать в реальном мире — дернуть API, создать задачу в трекере, обновить базу, отправить сообщение в Slack — становится больно. LLM отвечает, но нужен строгий формат, четкие права доступа и предсказуемость. Один лишний символ в JSON, неверный тип поля или вольяжная формулировка — и цепочка ломается, а разработчики обрастают ретраями и костылями. Это и есть парадокс интеграции: чем умнее генерация, тем сложнее надежно встроить ее в жесткие интерфейсы.

Проблема в том, что мы пытаемся управлять софтом через текст, который по природе не обязан быть точным и повторяемым. И вот вопрос: можно ли сделать агента, которому действительно можно доверить действия в корпоративной среде?

Разберем, как Auton Agentic AI Framework предлагает приручить стохастику: разделить агента на проверяемую спецификацию и рантайм-исполнитель, ввести контракты вывода, встроенные ограничения безопасности и память, а заодно все это ускорить.

📜 Полный обзор
👍3🔥1
Всё, что нужно знать об обучении агентов простыми словами

Мы привыкли измерять эффективность LLM по одному ответу: получил лайк или штраф, и на этом всё. Но в реальных задачах так не бывает. Нужно действовать цепочкой шагов: поискать информацию, вызвать инструмент, проверить себя, запомнить важное, исправить ошибку и только потом дойти до результата. И тут есть проблема.

Сегодня исследователи рассматривают LLM как агента в среде. Награда приходит за то, что задача реально решена. Отсюда и самый интересный вопрос: как научить модель не просто отвечать, а вести себя устойчиво, когда информационный мир шумный, шагов много, а результат видно только в конце.

В обзоре рассмотрим, что такое агентное обучение с подкреплением простыми словами, почему здесь важна траектория действий, где это уже даёт мощные результаты (например, в коде), и какие проблемы всё ещё мешают агентам стать по-настоящему надёжными.

📜 Полный обзор
👍3
ИИ как коллективный разум: куда ведёт эпоха агентных систем

Мы привыкли думать о будущем ИИ как о появлении одного сверхразума: будто где-то родится один монстр, который станет умнее всех и быстро разгонит себя до недосягаемого уровня. Но в реальности главная проблема другая: как управлять не одним умным мозгом, а целой толпой ИИ-агентов, которые берут роли, спорят, проверяют друг друга и лезут в задачи вроде найма, судов и распределения ресурсов.

Самое интересное, что зачатки этого общества видны уже внутри современных рассуждающих моделей. Они улучшаются не только потому, что дольше думают, а потому что внутри появляется что-то похожее на мини-дискуссию: разные версии ответа, сомнения, проверки, согласование. Как будто модель собирает маленькую команду прямо у себя в голове.

В полной версии разберём, почему «взрыв интеллекта» больше похож на рост города, чем на пробуждение одного гения, как из этого вытекают гибридные воркфлоу и сообщества агентов, и почему следующий слой безопасности — это не дрессировка модели, а правила и институты, которые заставляют системы сдерживать друг друга.

📜 Полный обзор
Ваша LLM умнее, чем кажется — вы просто используете ее неправильно

Мы привыкли мерить модели по количеству параметров, размерам датасетов и изысканности архитектуры. Но в реальных продуктах часто решает другое — обвязка вокруг LLM: что она запоминает, как достаёт контекст, когда вызывает инструменты и как ведёт многошаговый процесс. И вот тут обычно начинается ручная работа: бесконечные правки, эвристики, дебаг по логам и дорогие итерации.

Самое неприятное, что хорошая или плохая обвязки могут дать разницу в разы даже на одной и той же модели. А привычные способы оптимизации промтов почти не помогают: они видят только итоговую оценку, а ошибки в памяти или retrieval могут всплыть через 20 шагов, когда уже поздно гадать, где всё поехало.

В обзоре разберём Meta-Harness — подход, где ИИ улучшает исполняемый код, опираясь на трейсы прошлых прогонов. И посмотрим, что будет, если дать агенту доступ ко всей истории экспериментов.

📜 Полный обзор
ИИ не может запустить стартап — и вот почему

ИИ-агенты бодро решают короткие задачи, когда надо нажать пару кнопок, вызвать инструмент и выдать ответ. Но как только работа растягивается на сотни шагов, они начинают сыпаться: ранняя мелкая ошибка тянет за собой цепочку проблем, обратная связь приходит слишком поздно, а важные детали просто вымываются из контекста.

В новом бенчмарке ycbench агент целый год управляет симулированным стартапом: контракты, дедлайны, зарплаты и риски. И примерно треть клиентов там раздувают объём работ так, что компания уходит в минус. Поймать этот паттерн можно только одним способом — заметить, запомнить и не забыть применить позже.

В обзоре разберу, как устроен ycbench, почему лучшим фактором успеха оказались регулярные заметки в памяти, и какие модели реально работают на долгосрочных задачах.

📜 Полный обзор
🔥3
Когда агент — это граф: как устроена оптимизация процессов на лету

В реальных продуктах LLM ищет данные, вызывает инструменты, запускает код, проверяет себя тестами и иногда делает несколько кругов, пока не получится. И вот тут внезапно выясняется, что решает не только качество промта, а то, как вообще устроен весь процесс. Добавили верификатор — стало надёжнее, но дороже.

Сегодня главный вопрос: как правильно собрать работу LLM в цепочку действий, которая умеет меняться по ситуации.

В обзоре разберём, почему исследователи IBM предлагают смотреть на LLM-агентов как на вычислительные графы и почему иногда достаточно небольшой динамики, чтобы резко снизить стоимость работы агента без потери надёжности.

📜 Полный обзор
1👍1
Атомарные навыки: как улучшить агентов для программирования на 18.7%

Почему одни ИИ-агенты для программирования уверенно проходят сложные бенчмарки, но теряются на прикладных задачах?

Исследователи предлагают сместить фокус с «больших» составных сценариев вроде багфикса на базовые атомарные навыки: поиск нужного места в коде, редактирование, генерацию тестов, воспроизведение проблем и ревью. Такой подход не только снижает переобучение на конкретные задачи, но и даёт заметный прирост на самых разных реальных кейсах.

В обзоре разберём, почему обучение отдельным навыкам может стать новым стандартом для широкого круга агентов.

📜 Полный обзор
👍2
Двунаправленная память как основа эволюции агентов

У deep research-агентов всё упирается в память: без неё они быстро теряют контекст, а с ней — начинают тонуть в дорогом хранилище прошлых действий.

Исследователи предлагают MIA (Memory Intelligence Agent) — архитектуру, где одна часть системы планирует поиск, другая исполняет его, а память умеет не просто накапливать опыт, но и эволюционировать прямо во время работы. Это важно, потому что такой подход заметно усиливает даже уже сильные модели и позволяет компактным агентам обгонять куда более крупные.

В обзоре разберём, как устроена «двунаправленная память» и почему она может стать следующим шагом для автономных ИИ-исследователей.

📜 Полный обзор
👍1🔥1
Что происходит когда у ИИ-агента несколько пользователей

Что происходит, когда один ИИ-агент должен угодить сразу нескольким людям, у каждого — свои цели, права и запреты?

Исследователи показывают, что в командной среде модели путаются в приоритетах и нарушают приватность. Авторы предлагают системный взгляд на многопользовательских ИИ-агентов и проверяют современные LLM в стрессовых сценариях, где конфликт интересов неизбежен.

В этом обзоре разбираем, почему это уже не нишевая проблема, а один из главных вызовов для ИИ-агентов, и почему даже передовые модели плохо справляются с этой задачей.

📜 Полный обзор
👍3
Как ИИ-агенты учатся помнить через окружающий мир

Память ИИ, возможно, живёт не только внутри модели, но и буквально разбросана по окружающему миру.

Исследователи показывают, что агент может «запоминать» информацию через среду: некоторые наблюдаемые следы и артефакты снижают потребность во внутренней памяти и помогают принимать решения эффективнее.

В этом обзоре разбираем, как среда становится внешней памятью для ИИ-агентов и почему это может изменить подход к обучению с подкреплением.

📜 Полный обзор
Архитектура общей памяти агентов для программирования

Почему одни ИИ-агенты для программирования умнеют на опыте, а другие застревают на одной узкой задачи?

Исследователи предлагают смотреть на память не как на локальный архив под конкретный бенчмарк, а как на общий ресурс, который можно переносить между разными доменами, моделями и типами задач. Главное открытие в том, что лучше всего переносится не сырой код и не детальные трейсы, а абстрактные инсайты и метазнание — именно они реально прибавляют качество.

В этом обзоре разбираем, как устроена общая память агентов и почему уровень абстракции становится ключевым фактором переноса.

📜 Полный обзор
Разработка игр стала новым бенчмарком для ИИ-агентов

Писать код ИИ уже умеет довольно неплохо, но как только дело доходит до картинок, анимаций и игровой сцены, его способности дают слабину.

Именно поэтому разработка игр неожиданно становится новым полигоном для проверки агентов: здесь нужно не только разбираться в большом коде, но и понимать визуальный мир проекта. Авторы предлагают GameDevBench — первый бенчмарк для игровых задач, который показывает, насколько слабы сегодняшние мультимодальные агенты и как даже простая обратная связь через изображения и видео заметно поднимает результат.

В этом обзоре разбираем, почему именно геймдев может стать главным экзаменом для следующего поколения ИИ-агентов.

📜 Полный обзор
Модели мира для агентов нового поколения

От ИИ сегодня ждут, что он будет действовать, принимать решения и не разваливаться при столкновении с реальным миром.

Исследователи предлагают удобную карту «уровней и законов», которая показывает, чем отличается модель, умеющая предсказывать следующий шаг, от той, что способна симулировать целые миры и даже пересобирать собственное понимание мира, если оно дало сбой. Это важно, потому что без таких моделей агенты не смогут надежно работать ни в вебе, ни в науке, ни в среде с людьми и правилами.

В этом обзоре разбираем, как устроены модели мира, где они чаще всего ошибаются и почему именно сейчас это становится ключевой темой для ИИ нового поколения.

📜 Полный обзор
👍1
Как построить компанию из одного человека и ИИ-агентов

Мы привыкли думать об ИИ-агентах как о наборе полезных ассистентов, но настоящий предел их возможностей сегодня — не в их навыках, а в том, как они организованы в «компанию».

Авторы предлагают OneManCompany — модель, где один человек собирает вокруг себя команду ИИ-агентов, нанимает нужные роли по ходу работы, а сама система умеет планировать, выполнять задачи и пересматривать свои решения. Это важно, потому что речь уже не о статичном пайплайне, а о самоорганизующейся системе, которая может адаптироваться к новым задачам почти как живой бизнес.

В этом обзоре разбираем, как устроена компания из одного человека и ИИ-агентов — и почему именно такая архитектура может стать следующим шагом для мультиагентных систем.

📜 Полный обзор
2👍2
Для чего нужна рекурсивная мультиагентная система

Обычные мультиагентные системы быстро упираются в потолок: слишком много контекста, слишком медленная координация или слишком дорогие вычисления.

Авторы предлагают RecursiveMAS — подход, в котором агенты взаимодействуют не только через сообщения, а через общую рекурсивную «петлю» латентных состояний, что делает совместное рассуждение быстрее, дешевле и точнее. На практике это дает заметный прирост качества, ускорение инференса и резкое снижение расхода токенов на задачах от математики до генерации кода.

В этом обзоре разбираемся, зачем мультиагентным системам рекурсия и может ли именно она стать новой точкой масштабирования ИИ.

📜 Полный обзор
👍3🔥1
Почему агенты хуже учатся на длинных задачах

Чем длиннее задача для ИИ-агента, тем чаще он начинает сыпаться — и дело не только в слабых алгоритмах, а в самой длине цепочки действий.

Авторы показывают, что даже при одинаковой логике и правилах именно большой горизонт задачи становится узким местом обучения: ломает исследование среды, мешает связать действия с результатом и делает тренировку нестабильной. Выход, как ни странно, в сокращении горизонта: это не только улучшает обучение, но и помогает моделям потом лучше справляться с более длинными сценариями.

В этом обзоре разбираем, почему длинные задачи так сложны для агентов и что с этим можно сделать.

📜 Полный обзор
👍2
Что на самом деле делает мультиагентные системы умнее

Мультиагентные системы кажутся умнее просто потому, что вокруг модели навесили сложную оркестрацию, — но что, если дело совсем не в этом?

Исследователи утверждают: настоящий прирост даёт не внешняя обвязка над моделью, а внутренняя «тяжёлая мыслительная» способность модели — сначала параллельное рассуждение, затем сжатое обобщение. Это важно, потому что такой навык оказывается сильнее привычных подходов и даже может масштабироваться через обучение с подкрепление.

В этом обзоре разбираемся, что на самом деле делает мультиагентные системы умнее.

📜 Полный обзор
👍3🔥1
Синтетические компьютеры учат агентов работать неделями

Проблема ИИ-агентов уже не в том, чтобы нажать кнопку, а в том, чтобы неделями не терять контекст в чужом рабочем компьютере с папками, файлами и бесконечными задачами.

Исследователи предлагают строить масштабные синтетические компьютеры — с реалистичной структурой директорий, документами, таблицами и презентациями — и запускать в них длинные симуляции, где агенты месяцами по человеческим меркам учатся доводить сложную офисную работу до результата. Это важно, потому что именно такая среда приближает обучение ИИ к реальной продуктивности, а не к лабораторным прототипам.

В этом обзоре разбираем, как цифровые рабочие миры могут стать полигоном для следующего поколения агентных систем.

📜 Полный обзор
👍1
Как агентам делегировать задачи без потери контроля

Чем умнее ИИ-агенты, тем опаснее становится простая передача задач «на авось» — без ясных ролей, границ и ответственности контроль теряется в самый неудобный момент.

Исследователи предлагают адаптивную модель делегирования, где важны не только распределение работы, но и передача полномочий, доверие, подотчётность и способность перестраиваться при сбоях и изменениях среды. Это особенно важно для мира, где задачи будут выполнять цепочки из ИИ-агентов и людей, а ошибки одной операции могут стоить слишком дорого.

В этом обзоре разбираем, как делегировать агентам задачи без потери контроля.

📜 Полный обзор
Как ИИ-соавтор для математиков решает открытые задачи

Математика долго считалась последней территорией, где ИИ может лишь помогать по мелочи, но не думать рядом с человеком.

Теперь появляется формат ИИ-соавтора: он не просто считает и ищет статьи, а участвует в исследовательском процессе целиком — от гипотез и тупиков до доказательств и новых направлений. Это важно, потому что речь уже не о «умном калькуляторе», а о рабочей среде, которая помогает продвигаться в открытых задачах и даже находит упущенные идеи в литературе.

В этом обзоре разбираем, как устроен такой союз математика и машины и что он меняет в самой логике научного поиска.

📜 Полный обзор