Dataism Science Hub
149 subscribers
144 links
🤖 Дневник ИИ-исследователя: обзор новых статей в области искусственного интеллекта

@andre_dataist
Download Telegram
Не один агент, а целая команда: мультиагентный подход к автономной разработке

LLM уже неплохо помогают генерировать код, объяснять ошибки, накидать тест. Но как только задача становится похожа на настоящую работу в репозитории — прочитать issue, разобраться в проекте, воспроизвести баг, сделать патч и не сломать всё остальное — один универсальный агент не справляется с задачей. Проблема часто не в том, что модель «слабая», а в том, что мы просим её работать не так, как обычно работает разработка.

А что если вместо супер-агента собрать маленькую команду: один анализирует и формулирует план, другой правит код и гоняет тесты, третий делает ревью прямо в pull request, а четвертый следит, чтобы процесс не расползался? Именно так устроен Agyn: мультиагентная система, которая пытается чинить баги как мини-разработка на GitHub, с ролями, изолированными окружениями и понятными правилами завершения работы.

В полном обзоре разберём, как устроены эти роли, почему GitHub-native подход оказался важнее «умной болтовни в чате», и как Agyn показывает конкурентный результат на SWE-bench.

📜 Полный обзор
👍3
Как ИИ-ассистенты незаметно лишают нас самостоятельности

Мы всё чаще отдаём ИИ то, что раньше делали сами: сформулировать мысль, выбрать слова, решить, кто прав, а что «нормально». Это удобно и быстро, но есть побочный эффект: помощник может взять на себя не только рутину, но и нашу способность разбираться в реальности, делать моральные выводы и принимать решения по-своему.

Ассистент уверенно подтверждает тревожную картину мира, выносит вердикт в споре или пишет готовые сообщения так гладко, что хочется отправить их без правок. И именно такие ответы, по данным исследователей, люди нередко оценивают выше остальных.

В полном обзоре разберём исследование из 1,5 миллионах реальных диалогов: какие паттерны лишения самостоятельности нашли авторы, где они встречаются чаще всего и почему лайки могут подталкивать ассистентов быть слишком авторитарным — особенно в личных темах.

📜 Полный обзор
😱3👀1
Коллективное поведение ИИ-агентов в социальных дилеммах: почему умные агенты разрушают общее благо

Мы уже привыкли измерять ИИ-агентов по одиночным тестам: как пишет код, как планирует задачи, хорошо ли торгует. Но в реальной жизни они почти никогда не работают в одиночку. Они сталкиваются друг с другом, конкурируют за ограниченные ресурсы и незаметно могут толкать систему в режим, где всем становится хуже — просто потому что так выгоднее каждому агенту по отдельности.

Самое неприятное в том, что умные агенты не всегда действуют на общественное благо. В новом исследовании сотни LLM-агентов запускают в классические социальные дилеммы — и иногда это оборачивается катастрофой. Причем именно продвинутые reasoning-модели порой быстрее находят способы выиграть индивидуально, паразитируя на кооперации остальных.

В полном обзоре разберем, как ученые заставили модели придумывать целые стратегии, как они измеряли «характер» этих стратегий и почему при росте группы рынок и конкуренция могут естественно отбирать худшее поведение, даже если все вроде бы хотели обратного.

📜 Полный обзор
😱2👍1
Иллюзия социализации: урок Moltbook для будущего интернета

Мы всё чаще слышим: дайте ИИ-агентам общаться подольше, соедините их в сеть — и рано или поздно получится что-то похожее на человеческое сообщество. Правила, авторитеты, общая память, коллективные предпочтения. Логика кажется железной, особенно когда речь про миллионы участников, посты, комментарии и систему лайков.

Но вот странность: на платформе Moltbook, где в «соцсети» сидят только автономные ИИ-агенты, это почему-то не сработало. Активность бурлит, разговоров море, темы меняются — а ощущение, что никто ни на кого по-настоящему не влияет. Как так выходит, что при огромном масштабе не появляется ни устойчивых лидеров, ни общих ориентиров, ни привычной социализации?

В полном обзоре разберём, как исследователи измеряли это на реальных данных Moltbook и что именно сломалось в механике общения, из-за чего миллионы ИИ так и не сложились в общество.

📜 Полный обзор
3
Когда контекст мешает: почему AGENTS.md делает работу агентов хуже

Кажется логичным: добавляешь в репозиторий AGENTS.md с правилами сборки, тестов и стиля, и агент для кода сразу меньше тупит, быстрее чинит баги и аккуратнее вносит фичи. Эту практику уже разнесло по open-source, а многие инструменты вообще предлагают сгенерировать такой файл одной командой.

Но есть нюанс: подсказки могут не помогать, а мешать. В свежем исследовании проверили три режима на реальных задачах уровня репозитория: без файла, с автосгенерированным и с тем, что написали сами разработчики. И выяснилось странное: агент начинает вести себя более дисциплинированно, больше проверяет и больше делает правильных действий… но при этом чаще тратит бюджет и не всегда решает задачу лучше.

В обзоре разберем, как именно это тестировали, почему автогенерация часто делает работу дороже и хуже, когда такие файлы все-таки реально спасают, и что стоит писать в AGENTS.md, чтобы он помогал, а не тормозил.

📜 Полный обзор
👍1
Интерфейс как среда: модель мира для офисных ИИ-агентов

Офисные приложения кажутся спокойной средой: кнопки на месте, всё предсказуемо. Но для ИИ-агента один клик не туда легко ломает всю цепочку действий: документ портится, нужная панель пропадает, а откат работает не всегда и часто стоит времени и нервов. В реальном интерфейсе нельзя безопасно экспериментировать, как в симуляторе.

И вот вопрос: а что если агент сможет сначала мысленно прогнать последствия каждого варианта, увидеть, как изменится экран, и только потом нажать? Не угадывать вслепую, а действовать осторожно, как человек, который заранее понимает, что откроется и что именно поменяется.

Давайте разберем CUWM — модель мира для desktop-интерфейсов, которая учит агента сначала коротко объяснять, что изменится в UI, а затем достраивать следующий скриншот. И главное — как это реально работает в Excel и PowerPoint.

📜 Полный обзор
👍2
Code2Worlds: LLM как движок мира — как ИИ начинает симулировать реальность

Генеративные модели уже умеют создавать красивое видео, но у него есть слабое место: картинка не обязана подчиняться законам физики. Предметы могут летать без опоры, вода течь не туда, а столкновения работать как попало. Для роботов, симуляций и вообще пространственного ИИ этого недостаточно — нужен мир, который не просто выглядит убедительно, а ведёт себя так, будто внутри физика реального мира.

Теперь вместо того чтобы просить модель рисовать движение на глаз, ей предлагают писать код для симулятора. То есть не угадывать, как должно колыхаться дерево на ветру, а задать параметры, запустить симуляцию, посмотреть, что вышло, и поправить ошибки — почти как инженер, который отлаживает программу.

Узнаем побольше о Code2Worlds: как там разделяют сцену на объект и окружение, зачем нужен замкнутый цикл с критиком, и почему такой подход заметно снижает физические артефакты по сравнению с видео-диффузией.

📜 Полный обзор
👍3
От статичных пайплайнов к адаптивным агентам:
как научить LLM выбирать действия, инструменты и бюджет под запрос


Агентные системы на базе LLM сегодня похожи на швейцарский нож. На простой вопрос модель прогоняют через тяжёлый конвейер с поиском, проверками и голосованием, тратя время и токены. А на сложной задаче, наоборот, может не хватить бюджета на рассуждение или не окажется нужного инструмента. В итоге качество прыгает, стоимость растёт, а часть полезной информации теряется в длинном контексте.

В свежей работе исследователи предлагают новую идею: проблему часто решает не новая LLM, а умение каждый раз выбирать режим работы под конкретный запрос. Но тут же возникает комбинаторный кошмар: тысячи вариантов пайплайнов, инструментов, промтов и бюджетов — вручную такое не настроишь, да и перебором слишком дорого.

В обзоре разбираем, как сделаь такой контроллер: по каким признакам он понимает, когда нужен поиск и проверки, как балансирует точность и цену, и почему это даёт заметный прирост на бенчмарках без дообучения самой базовой модели.

📜 Полный обзор
🔥1
От восприятия к визуальному мышлению:
как добавить ИИ внутреннее «воображение»


Мультимодальные модели умеют распознать объект на фото, прочитать подпись, ответить на вопрос по картинке. Но стоит попросить их сделать то, что человек делает почти на автомате, мысленно повернуть фигуру, продолжить узор, пройтись по схеме шаг за шагом, и уверенность у ИИ-моделей падает. Как будто ИИ видит, но не может удержать картинку «в голове» и нормально с ней поработать.

Самое интересное, что проблема не всегда в «умности» модели, а в интерфейсе мышления. Мы привыкли лечить ошибки длинными текстовыми рассуждениями, но текст плохо подходит для пространственных операций. А что если часть мышления вообще не переводить в слова?

В полном обзоре разберём работу CogSense: зачем исследователи собрали бенчмарк, который проверяет именно визуальное мышление, и как они добавили модели внутреннее латентное воображение, чтобы она не просто описывала картинку, а действительно могла мысленно симулировать и планировать действия.

📜 Полный обзор
👍4🔥1
Context Engineering:
новая дисциплина для автономных ИИ-агентов


ИИ-агенты умеют сами лезть в репозиторий, править файлы, гонять тесты и собирать PR. И всё это выглядит круто ровно до момента, когда агент начинает действовать как новичок, который не читал правила команды: ломает стиль, запускает не те команды и оставляет после себя лёгкий хаос. Оказывается, проблемой становится не качество модели, а то, что у неё нет нормальной памяти о проекте.

И вот тут вместо бесконечных промтов команды начали складывать для агентов отдельные файлы-инструкции прямо в репозиторий — вроде AGENTS.md. Это уже не README для людей, а маленькая документация для машины: что здесь принято, что нельзя, как собирать, как тестировать и как не наступать на грабли.

Разберём, насколько эта практика вообще стала массовой, что реально пишут в таких файлах, почему единого шаблона до сих пор нет и как инструкции иногда эволюционируют вместе с кодом — как ещё один живой артефакт разработки.

📜 Полный обзор
👍2
Теория разума для ИИ: что происходит, когда агенты начинают «догадываться» о намерениях друг друга

О мультиагентных системах на базе LLM часто думают как о команде агентов, которая сама договорится, распланирует задачи и всё сделает красиво. Но в реальности «командная работа» ломается на простых вещах: кто куда едет, что уже везёт, кому верить и как не утонуть в догадках друг о друге. Один агент пишет чёткий план, второй понимает его по‑своему, третий молчит — и вместо синхронной работы получается эффект сломанного телефона.

Самое любопытное: кажется логичным дать агентам более человеческое мышление — умение прикидывать намерения других и держать в голове внутреннюю картину мира. Но в экспериментах такие умные надстройки иногда не помогают, а скорее мешают. На одних моделях координация становится лучше, на других проседает, и причина не всегда очевидна.

Сегодня разберём симуляцию города, где три агента спасают районы ресурсами, посмотрим, как устроены общая и личная память, зачем тут логическая проверка через Clingo и почему универсального рецепта вроде добавим Theory of Mind и всё взлетит не существует.

📜 Полный обзор
👍21
Почему ИИ-агенты плохо интегрируются с реальными API и как их приручить

Как только мы просим ИИ-агентов действовать в реальном мире — дернуть API, создать задачу в трекере, обновить базу, отправить сообщение в Slack — становится больно. LLM отвечает, но нужен строгий формат, четкие права доступа и предсказуемость. Один лишний символ в JSON, неверный тип поля или вольяжная формулировка — и цепочка ломается, а разработчики обрастают ретраями и костылями. Это и есть парадокс интеграции: чем умнее генерация, тем сложнее надежно встроить ее в жесткие интерфейсы.

Проблема в том, что мы пытаемся управлять софтом через текст, который по природе не обязан быть точным и повторяемым. И вот вопрос: можно ли сделать агента, которому действительно можно доверить действия в корпоративной среде?

Разберем, как Auton Agentic AI Framework предлагает приручить стохастику: разделить агента на проверяемую спецификацию и рантайм-исполнитель, ввести контракты вывода, встроенные ограничения безопасности и память, а заодно все это ускорить.

📜 Полный обзор
👍3🔥1
Всё, что нужно знать об обучении агентов простыми словами

Мы привыкли измерять эффективность LLM по одному ответу: получил лайк или штраф, и на этом всё. Но в реальных задачах так не бывает. Нужно действовать цепочкой шагов: поискать информацию, вызвать инструмент, проверить себя, запомнить важное, исправить ошибку и только потом дойти до результата. И тут есть проблема.

Сегодня исследователи рассматривают LLM как агента в среде. Награда приходит за то, что задача реально решена. Отсюда и самый интересный вопрос: как научить модель не просто отвечать, а вести себя устойчиво, когда информационный мир шумный, шагов много, а результат видно только в конце.

В обзоре рассмотрим, что такое агентное обучение с подкреплением простыми словами, почему здесь важна траектория действий, где это уже даёт мощные результаты (например, в коде), и какие проблемы всё ещё мешают агентам стать по-настоящему надёжными.

📜 Полный обзор
👍3
ИИ как коллективный разум: куда ведёт эпоха агентных систем

Мы привыкли думать о будущем ИИ как о появлении одного сверхразума: будто где-то родится один монстр, который станет умнее всех и быстро разгонит себя до недосягаемого уровня. Но в реальности главная проблема другая: как управлять не одним умным мозгом, а целой толпой ИИ-агентов, которые берут роли, спорят, проверяют друг друга и лезут в задачи вроде найма, судов и распределения ресурсов.

Самое интересное, что зачатки этого общества видны уже внутри современных рассуждающих моделей. Они улучшаются не только потому, что дольше думают, а потому что внутри появляется что-то похожее на мини-дискуссию: разные версии ответа, сомнения, проверки, согласование. Как будто модель собирает маленькую команду прямо у себя в голове.

В полной версии разберём, почему «взрыв интеллекта» больше похож на рост города, чем на пробуждение одного гения, как из этого вытекают гибридные воркфлоу и сообщества агентов, и почему следующий слой безопасности — это не дрессировка модели, а правила и институты, которые заставляют системы сдерживать друг друга.

📜 Полный обзор
Ваша LLM умнее, чем кажется — вы просто используете ее неправильно

Мы привыкли мерить модели по количеству параметров, размерам датасетов и изысканности архитектуры. Но в реальных продуктах часто решает другое — обвязка вокруг LLM: что она запоминает, как достаёт контекст, когда вызывает инструменты и как ведёт многошаговый процесс. И вот тут обычно начинается ручная работа: бесконечные правки, эвристики, дебаг по логам и дорогие итерации.

Самое неприятное, что хорошая или плохая обвязки могут дать разницу в разы даже на одной и той же модели. А привычные способы оптимизации промтов почти не помогают: они видят только итоговую оценку, а ошибки в памяти или retrieval могут всплыть через 20 шагов, когда уже поздно гадать, где всё поехало.

В обзоре разберём Meta-Harness — подход, где ИИ улучшает исполняемый код, опираясь на трейсы прошлых прогонов. И посмотрим, что будет, если дать агенту доступ ко всей истории экспериментов.

📜 Полный обзор
ИИ не может запустить стартап — и вот почему

ИИ-агенты бодро решают короткие задачи, когда надо нажать пару кнопок, вызвать инструмент и выдать ответ. Но как только работа растягивается на сотни шагов, они начинают сыпаться: ранняя мелкая ошибка тянет за собой цепочку проблем, обратная связь приходит слишком поздно, а важные детали просто вымываются из контекста.

В новом бенчмарке ycbench агент целый год управляет симулированным стартапом: контракты, дедлайны, зарплаты и риски. И примерно треть клиентов там раздувают объём работ так, что компания уходит в минус. Поймать этот паттерн можно только одним способом — заметить, запомнить и не забыть применить позже.

В обзоре разберу, как устроен ycbench, почему лучшим фактором успеха оказались регулярные заметки в памяти, и какие модели реально работают на долгосрочных задачах.

📜 Полный обзор
🔥3
Когда агент — это граф: как устроена оптимизация процессов на лету

В реальных продуктах LLM ищет данные, вызывает инструменты, запускает код, проверяет себя тестами и иногда делает несколько кругов, пока не получится. И вот тут внезапно выясняется, что решает не только качество промта, а то, как вообще устроен весь процесс. Добавили верификатор — стало надёжнее, но дороже.

Сегодня главный вопрос: как правильно собрать работу LLM в цепочку действий, которая умеет меняться по ситуации.

В обзоре разберём, почему исследователи IBM предлагают смотреть на LLM-агентов как на вычислительные графы и почему иногда достаточно небольшой динамики, чтобы резко снизить стоимость работы агента без потери надёжности.

📜 Полный обзор
1👍1
Атомарные навыки: как улучшить агентов для программирования на 18.7%

Почему одни ИИ-агенты для программирования уверенно проходят сложные бенчмарки, но теряются на прикладных задачах?

Исследователи предлагают сместить фокус с «больших» составных сценариев вроде багфикса на базовые атомарные навыки: поиск нужного места в коде, редактирование, генерацию тестов, воспроизведение проблем и ревью. Такой подход не только снижает переобучение на конкретные задачи, но и даёт заметный прирост на самых разных реальных кейсах.

В обзоре разберём, почему обучение отдельным навыкам может стать новым стандартом для широкого круга агентов.

📜 Полный обзор
👍2
Двунаправленная память как основа эволюции агентов

У deep research-агентов всё упирается в память: без неё они быстро теряют контекст, а с ней — начинают тонуть в дорогом хранилище прошлых действий.

Исследователи предлагают MIA (Memory Intelligence Agent) — архитектуру, где одна часть системы планирует поиск, другая исполняет его, а память умеет не просто накапливать опыт, но и эволюционировать прямо во время работы. Это важно, потому что такой подход заметно усиливает даже уже сильные модели и позволяет компактным агентам обгонять куда более крупные.

В обзоре разберём, как устроена «двунаправленная память» и почему она может стать следующим шагом для автономных ИИ-исследователей.

📜 Полный обзор
👍1🔥1
Что происходит когда у ИИ-агента несколько пользователей

Что происходит, когда один ИИ-агент должен угодить сразу нескольким людям, у каждого — свои цели, права и запреты?

Исследователи показывают, что в командной среде модели путаются в приоритетах и нарушают приватность. Авторы предлагают системный взгляд на многопользовательских ИИ-агентов и проверяют современные LLM в стрессовых сценариях, где конфликт интересов неизбежен.

В этом обзоре разбираем, почему это уже не нишевая проблема, а один из главных вызовов для ИИ-агентов, и почему даже передовые модели плохо справляются с этой задачей.

📜 Полный обзор
👍3
Как ИИ-агенты учатся помнить через окружающий мир

Память ИИ, возможно, живёт не только внутри модели, но и буквально разбросана по окружающему миру.

Исследователи показывают, что агент может «запоминать» информацию через среду: некоторые наблюдаемые следы и артефакты снижают потребность во внутренней памяти и помогают принимать решения эффективнее.

В этом обзоре разбираем, как среда становится внешней памятью для ИИ-агентов и почему это может изменить подход к обучению с подкреплением.

📜 Полный обзор