Dataism Science Hub
149 subscribers
144 links
🤖 Дневник ИИ-исследователя: обзор новых статей в области искусственного интеллекта

@andre_dataist
Download Telegram
Интерфейс как среда: модель мира для офисных ИИ-агентов

Офисные приложения кажутся спокойной средой: кнопки на месте, всё предсказуемо. Но для ИИ-агента один клик не туда легко ломает всю цепочку действий: документ портится, нужная панель пропадает, а откат работает не всегда и часто стоит времени и нервов. В реальном интерфейсе нельзя безопасно экспериментировать, как в симуляторе.

И вот вопрос: а что если агент сможет сначала мысленно прогнать последствия каждого варианта, увидеть, как изменится экран, и только потом нажать? Не угадывать вслепую, а действовать осторожно, как человек, который заранее понимает, что откроется и что именно поменяется.

Давайте разберем CUWM — модель мира для desktop-интерфейсов, которая учит агента сначала коротко объяснять, что изменится в UI, а затем достраивать следующий скриншот. И главное — как это реально работает в Excel и PowerPoint.

📜 Полный обзор
👍2
Code2Worlds: LLM как движок мира — как ИИ начинает симулировать реальность

Генеративные модели уже умеют создавать красивое видео, но у него есть слабое место: картинка не обязана подчиняться законам физики. Предметы могут летать без опоры, вода течь не туда, а столкновения работать как попало. Для роботов, симуляций и вообще пространственного ИИ этого недостаточно — нужен мир, который не просто выглядит убедительно, а ведёт себя так, будто внутри физика реального мира.

Теперь вместо того чтобы просить модель рисовать движение на глаз, ей предлагают писать код для симулятора. То есть не угадывать, как должно колыхаться дерево на ветру, а задать параметры, запустить симуляцию, посмотреть, что вышло, и поправить ошибки — почти как инженер, который отлаживает программу.

Узнаем побольше о Code2Worlds: как там разделяют сцену на объект и окружение, зачем нужен замкнутый цикл с критиком, и почему такой подход заметно снижает физические артефакты по сравнению с видео-диффузией.

📜 Полный обзор
👍3
От статичных пайплайнов к адаптивным агентам:
как научить LLM выбирать действия, инструменты и бюджет под запрос


Агентные системы на базе LLM сегодня похожи на швейцарский нож. На простой вопрос модель прогоняют через тяжёлый конвейер с поиском, проверками и голосованием, тратя время и токены. А на сложной задаче, наоборот, может не хватить бюджета на рассуждение или не окажется нужного инструмента. В итоге качество прыгает, стоимость растёт, а часть полезной информации теряется в длинном контексте.

В свежей работе исследователи предлагают новую идею: проблему часто решает не новая LLM, а умение каждый раз выбирать режим работы под конкретный запрос. Но тут же возникает комбинаторный кошмар: тысячи вариантов пайплайнов, инструментов, промтов и бюджетов — вручную такое не настроишь, да и перебором слишком дорого.

В обзоре разбираем, как сделаь такой контроллер: по каким признакам он понимает, когда нужен поиск и проверки, как балансирует точность и цену, и почему это даёт заметный прирост на бенчмарках без дообучения самой базовой модели.

📜 Полный обзор
🔥1
От восприятия к визуальному мышлению:
как добавить ИИ внутреннее «воображение»


Мультимодальные модели умеют распознать объект на фото, прочитать подпись, ответить на вопрос по картинке. Но стоит попросить их сделать то, что человек делает почти на автомате, мысленно повернуть фигуру, продолжить узор, пройтись по схеме шаг за шагом, и уверенность у ИИ-моделей падает. Как будто ИИ видит, но не может удержать картинку «в голове» и нормально с ней поработать.

Самое интересное, что проблема не всегда в «умности» модели, а в интерфейсе мышления. Мы привыкли лечить ошибки длинными текстовыми рассуждениями, но текст плохо подходит для пространственных операций. А что если часть мышления вообще не переводить в слова?

В полном обзоре разберём работу CogSense: зачем исследователи собрали бенчмарк, который проверяет именно визуальное мышление, и как они добавили модели внутреннее латентное воображение, чтобы она не просто описывала картинку, а действительно могла мысленно симулировать и планировать действия.

📜 Полный обзор
👍4🔥1
Context Engineering:
новая дисциплина для автономных ИИ-агентов


ИИ-агенты умеют сами лезть в репозиторий, править файлы, гонять тесты и собирать PR. И всё это выглядит круто ровно до момента, когда агент начинает действовать как новичок, который не читал правила команды: ломает стиль, запускает не те команды и оставляет после себя лёгкий хаос. Оказывается, проблемой становится не качество модели, а то, что у неё нет нормальной памяти о проекте.

И вот тут вместо бесконечных промтов команды начали складывать для агентов отдельные файлы-инструкции прямо в репозиторий — вроде AGENTS.md. Это уже не README для людей, а маленькая документация для машины: что здесь принято, что нельзя, как собирать, как тестировать и как не наступать на грабли.

Разберём, насколько эта практика вообще стала массовой, что реально пишут в таких файлах, почему единого шаблона до сих пор нет и как инструкции иногда эволюционируют вместе с кодом — как ещё один живой артефакт разработки.

📜 Полный обзор
👍2
Теория разума для ИИ: что происходит, когда агенты начинают «догадываться» о намерениях друг друга

О мультиагентных системах на базе LLM часто думают как о команде агентов, которая сама договорится, распланирует задачи и всё сделает красиво. Но в реальности «командная работа» ломается на простых вещах: кто куда едет, что уже везёт, кому верить и как не утонуть в догадках друг о друге. Один агент пишет чёткий план, второй понимает его по‑своему, третий молчит — и вместо синхронной работы получается эффект сломанного телефона.

Самое любопытное: кажется логичным дать агентам более человеческое мышление — умение прикидывать намерения других и держать в голове внутреннюю картину мира. Но в экспериментах такие умные надстройки иногда не помогают, а скорее мешают. На одних моделях координация становится лучше, на других проседает, и причина не всегда очевидна.

Сегодня разберём симуляцию города, где три агента спасают районы ресурсами, посмотрим, как устроены общая и личная память, зачем тут логическая проверка через Clingo и почему универсального рецепта вроде добавим Theory of Mind и всё взлетит не существует.

📜 Полный обзор
👍21
Почему ИИ-агенты плохо интегрируются с реальными API и как их приручить

Как только мы просим ИИ-агентов действовать в реальном мире — дернуть API, создать задачу в трекере, обновить базу, отправить сообщение в Slack — становится больно. LLM отвечает, но нужен строгий формат, четкие права доступа и предсказуемость. Один лишний символ в JSON, неверный тип поля или вольяжная формулировка — и цепочка ломается, а разработчики обрастают ретраями и костылями. Это и есть парадокс интеграции: чем умнее генерация, тем сложнее надежно встроить ее в жесткие интерфейсы.

Проблема в том, что мы пытаемся управлять софтом через текст, который по природе не обязан быть точным и повторяемым. И вот вопрос: можно ли сделать агента, которому действительно можно доверить действия в корпоративной среде?

Разберем, как Auton Agentic AI Framework предлагает приручить стохастику: разделить агента на проверяемую спецификацию и рантайм-исполнитель, ввести контракты вывода, встроенные ограничения безопасности и память, а заодно все это ускорить.

📜 Полный обзор
👍3🔥1
Всё, что нужно знать об обучении агентов простыми словами

Мы привыкли измерять эффективность LLM по одному ответу: получил лайк или штраф, и на этом всё. Но в реальных задачах так не бывает. Нужно действовать цепочкой шагов: поискать информацию, вызвать инструмент, проверить себя, запомнить важное, исправить ошибку и только потом дойти до результата. И тут есть проблема.

Сегодня исследователи рассматривают LLM как агента в среде. Награда приходит за то, что задача реально решена. Отсюда и самый интересный вопрос: как научить модель не просто отвечать, а вести себя устойчиво, когда информационный мир шумный, шагов много, а результат видно только в конце.

В обзоре рассмотрим, что такое агентное обучение с подкреплением простыми словами, почему здесь важна траектория действий, где это уже даёт мощные результаты (например, в коде), и какие проблемы всё ещё мешают агентам стать по-настоящему надёжными.

📜 Полный обзор
👍3
ИИ как коллективный разум: куда ведёт эпоха агентных систем

Мы привыкли думать о будущем ИИ как о появлении одного сверхразума: будто где-то родится один монстр, который станет умнее всех и быстро разгонит себя до недосягаемого уровня. Но в реальности главная проблема другая: как управлять не одним умным мозгом, а целой толпой ИИ-агентов, которые берут роли, спорят, проверяют друг друга и лезут в задачи вроде найма, судов и распределения ресурсов.

Самое интересное, что зачатки этого общества видны уже внутри современных рассуждающих моделей. Они улучшаются не только потому, что дольше думают, а потому что внутри появляется что-то похожее на мини-дискуссию: разные версии ответа, сомнения, проверки, согласование. Как будто модель собирает маленькую команду прямо у себя в голове.

В полной версии разберём, почему «взрыв интеллекта» больше похож на рост города, чем на пробуждение одного гения, как из этого вытекают гибридные воркфлоу и сообщества агентов, и почему следующий слой безопасности — это не дрессировка модели, а правила и институты, которые заставляют системы сдерживать друг друга.

📜 Полный обзор
Ваша LLM умнее, чем кажется — вы просто используете ее неправильно

Мы привыкли мерить модели по количеству параметров, размерам датасетов и изысканности архитектуры. Но в реальных продуктах часто решает другое — обвязка вокруг LLM: что она запоминает, как достаёт контекст, когда вызывает инструменты и как ведёт многошаговый процесс. И вот тут обычно начинается ручная работа: бесконечные правки, эвристики, дебаг по логам и дорогие итерации.

Самое неприятное, что хорошая или плохая обвязки могут дать разницу в разы даже на одной и той же модели. А привычные способы оптимизации промтов почти не помогают: они видят только итоговую оценку, а ошибки в памяти или retrieval могут всплыть через 20 шагов, когда уже поздно гадать, где всё поехало.

В обзоре разберём Meta-Harness — подход, где ИИ улучшает исполняемый код, опираясь на трейсы прошлых прогонов. И посмотрим, что будет, если дать агенту доступ ко всей истории экспериментов.

📜 Полный обзор
ИИ не может запустить стартап — и вот почему

ИИ-агенты бодро решают короткие задачи, когда надо нажать пару кнопок, вызвать инструмент и выдать ответ. Но как только работа растягивается на сотни шагов, они начинают сыпаться: ранняя мелкая ошибка тянет за собой цепочку проблем, обратная связь приходит слишком поздно, а важные детали просто вымываются из контекста.

В новом бенчмарке ycbench агент целый год управляет симулированным стартапом: контракты, дедлайны, зарплаты и риски. И примерно треть клиентов там раздувают объём работ так, что компания уходит в минус. Поймать этот паттерн можно только одним способом — заметить, запомнить и не забыть применить позже.

В обзоре разберу, как устроен ycbench, почему лучшим фактором успеха оказались регулярные заметки в памяти, и какие модели реально работают на долгосрочных задачах.

📜 Полный обзор
🔥3
Когда агент — это граф: как устроена оптимизация процессов на лету

В реальных продуктах LLM ищет данные, вызывает инструменты, запускает код, проверяет себя тестами и иногда делает несколько кругов, пока не получится. И вот тут внезапно выясняется, что решает не только качество промта, а то, как вообще устроен весь процесс. Добавили верификатор — стало надёжнее, но дороже.

Сегодня главный вопрос: как правильно собрать работу LLM в цепочку действий, которая умеет меняться по ситуации.

В обзоре разберём, почему исследователи IBM предлагают смотреть на LLM-агентов как на вычислительные графы и почему иногда достаточно небольшой динамики, чтобы резко снизить стоимость работы агента без потери надёжности.

📜 Полный обзор
1👍1
Атомарные навыки: как улучшить агентов для программирования на 18.7%

Почему одни ИИ-агенты для программирования уверенно проходят сложные бенчмарки, но теряются на прикладных задачах?

Исследователи предлагают сместить фокус с «больших» составных сценариев вроде багфикса на базовые атомарные навыки: поиск нужного места в коде, редактирование, генерацию тестов, воспроизведение проблем и ревью. Такой подход не только снижает переобучение на конкретные задачи, но и даёт заметный прирост на самых разных реальных кейсах.

В обзоре разберём, почему обучение отдельным навыкам может стать новым стандартом для широкого круга агентов.

📜 Полный обзор
👍2
Двунаправленная память как основа эволюции агентов

У deep research-агентов всё упирается в память: без неё они быстро теряют контекст, а с ней — начинают тонуть в дорогом хранилище прошлых действий.

Исследователи предлагают MIA (Memory Intelligence Agent) — архитектуру, где одна часть системы планирует поиск, другая исполняет его, а память умеет не просто накапливать опыт, но и эволюционировать прямо во время работы. Это важно, потому что такой подход заметно усиливает даже уже сильные модели и позволяет компактным агентам обгонять куда более крупные.

В обзоре разберём, как устроена «двунаправленная память» и почему она может стать следующим шагом для автономных ИИ-исследователей.

📜 Полный обзор
👍1🔥1
Что происходит когда у ИИ-агента несколько пользователей

Что происходит, когда один ИИ-агент должен угодить сразу нескольким людям, у каждого — свои цели, права и запреты?

Исследователи показывают, что в командной среде модели путаются в приоритетах и нарушают приватность. Авторы предлагают системный взгляд на многопользовательских ИИ-агентов и проверяют современные LLM в стрессовых сценариях, где конфликт интересов неизбежен.

В этом обзоре разбираем, почему это уже не нишевая проблема, а один из главных вызовов для ИИ-агентов, и почему даже передовые модели плохо справляются с этой задачей.

📜 Полный обзор
👍3
Как ИИ-агенты учатся помнить через окружающий мир

Память ИИ, возможно, живёт не только внутри модели, но и буквально разбросана по окружающему миру.

Исследователи показывают, что агент может «запоминать» информацию через среду: некоторые наблюдаемые следы и артефакты снижают потребность во внутренней памяти и помогают принимать решения эффективнее.

В этом обзоре разбираем, как среда становится внешней памятью для ИИ-агентов и почему это может изменить подход к обучению с подкреплением.

📜 Полный обзор
Архитектура общей памяти агентов для программирования

Почему одни ИИ-агенты для программирования умнеют на опыте, а другие застревают на одной узкой задачи?

Исследователи предлагают смотреть на память не как на локальный архив под конкретный бенчмарк, а как на общий ресурс, который можно переносить между разными доменами, моделями и типами задач. Главное открытие в том, что лучше всего переносится не сырой код и не детальные трейсы, а абстрактные инсайты и метазнание — именно они реально прибавляют качество.

В этом обзоре разбираем, как устроена общая память агентов и почему уровень абстракции становится ключевым фактором переноса.

📜 Полный обзор
Разработка игр стала новым бенчмарком для ИИ-агентов

Писать код ИИ уже умеет довольно неплохо, но как только дело доходит до картинок, анимаций и игровой сцены, его способности дают слабину.

Именно поэтому разработка игр неожиданно становится новым полигоном для проверки агентов: здесь нужно не только разбираться в большом коде, но и понимать визуальный мир проекта. Авторы предлагают GameDevBench — первый бенчмарк для игровых задач, который показывает, насколько слабы сегодняшние мультимодальные агенты и как даже простая обратная связь через изображения и видео заметно поднимает результат.

В этом обзоре разбираем, почему именно геймдев может стать главным экзаменом для следующего поколения ИИ-агентов.

📜 Полный обзор
Модели мира для агентов нового поколения

От ИИ сегодня ждут, что он будет действовать, принимать решения и не разваливаться при столкновении с реальным миром.

Исследователи предлагают удобную карту «уровней и законов», которая показывает, чем отличается модель, умеющая предсказывать следующий шаг, от той, что способна симулировать целые миры и даже пересобирать собственное понимание мира, если оно дало сбой. Это важно, потому что без таких моделей агенты не смогут надежно работать ни в вебе, ни в науке, ни в среде с людьми и правилами.

В этом обзоре разбираем, как устроены модели мира, где они чаще всего ошибаются и почему именно сейчас это становится ключевой темой для ИИ нового поколения.

📜 Полный обзор
👍1
Как построить компанию из одного человека и ИИ-агентов

Мы привыкли думать об ИИ-агентах как о наборе полезных ассистентов, но настоящий предел их возможностей сегодня — не в их навыках, а в том, как они организованы в «компанию».

Авторы предлагают OneManCompany — модель, где один человек собирает вокруг себя команду ИИ-агентов, нанимает нужные роли по ходу работы, а сама система умеет планировать, выполнять задачи и пересматривать свои решения. Это важно, потому что речь уже не о статичном пайплайне, а о самоорганизующейся системе, которая может адаптироваться к новым задачам почти как живой бизнес.

В этом обзоре разбираем, как устроена компания из одного человека и ИИ-агентов — и почему именно такая архитектура может стать следующим шагом для мультиагентных систем.

📜 Полный обзор
2👍2
Для чего нужна рекурсивная мультиагентная система

Обычные мультиагентные системы быстро упираются в потолок: слишком много контекста, слишком медленная координация или слишком дорогие вычисления.

Авторы предлагают RecursiveMAS — подход, в котором агенты взаимодействуют не только через сообщения, а через общую рекурсивную «петлю» латентных состояний, что делает совместное рассуждение быстрее, дешевле и точнее. На практике это дает заметный прирост качества, ускорение инференса и резкое снижение расхода токенов на задачах от математики до генерации кода.

В этом обзоре разбираемся, зачем мультиагентным системам рекурсия и может ли именно она стать новой точкой масштабирования ИИ.

📜 Полный обзор
👍3🔥1