Dataism Science Hub – Telegram

Dataism Science Hub

@dataism_science

149 subscribers

144 links

🤖 Дневник ИИ-исследователя: обзор новых статей в области искусственного интеллекта

@andre_dataist

Download Telegram

About

Blog

Apps

Platform

Dataism Science Hub

149 subscribers

Dataism Science Hub

Интерфейс как среда: модель мира для офисных ИИ-агентов

Офисные приложения кажутся спокойной средой: кнопки на месте, всё предсказуемо. Но для ИИ-агента один клик не туда легко ломает всю цепочку действий: документ портится, нужная панель пропадает, а откат работает не всегда и часто стоит времени и нервов. В реальном интерфейсе нельзя безопасно экспериментировать, как в симуляторе.

И вот вопрос: а что если агент сможет сначала мысленно прогнать последствия каждого варианта, увидеть, как изменится экран, и только потом нажать? Не угадывать вслепую, а действовать осторожно, как человек, который заранее понимает, что откроется и что именно поменяется.

Давайте разберем CUWM — модель мира для desktop-интерфейсов, которая учит агента сначала коротко объяснять, что изменится в UI, а затем достраивать следующий скриншот. И главное — как это реально работает в Excel и PowerPoint.

📜 Полный обзор

Интерфейс как среда: модель мира для офисных ИИ-агентов

Мы привыкли думать, что работа в офисных приложениях предсказуема: интерфейс детерминированный, кнопки на месте, всё должно быть «как всегда». Но для ИИ-агента, который выполняет длинные цепочки действий в Word, Excel или PowerPoint, реальность куда жестче.…

👍2

113 views19:52

Dataism Science Hub

Code2Worlds: LLM как движок мира — как ИИ начинает симулировать реальность

Генеративные модели уже умеют создавать красивое видео, но у него есть слабое место: картинка не обязана подчиняться законам физики. Предметы могут летать без опоры, вода течь не туда, а столкновения работать как попало. Для роботов, симуляций и вообще пространственного ИИ этого недостаточно — нужен мир, который не просто выглядит убедительно, а ведёт себя так, будто внутри физика реального мира.

Теперь вместо того чтобы просить модель рисовать движение на глаз, ей предлагают писать код для симулятора. То есть не угадывать, как должно колыхаться дерево на ветру, а задать параметры, запустить симуляцию, посмотреть, что вышло, и поправить ошибки — почти как инженер, который отлаживает программу.

Узнаем побольше о Code2Worlds: как там разделяют сцену на объект и окружение, зачем нужен замкнутый цикл с критиком, и почему такой подход заметно снижает физические артефакты по сравнению с видео-диффузией.

📜 Полный обзор

Code2Worlds: LLM как движок мира — как ИИ начинает симулировать реальность

Генеративные модели научились рисовать впечатляющие ролики, но у такого видео есть слабое место: оно не обязано подчиняться законам физики. Объект может «плыть» в воздухе, частицы — игнорировать гравитацию, а твёрдые тела — проходить друг сквозь друга. Для…

👍3

105 views21:19

Dataism Science Hub

От статичных пайплайнов к адаптивным агентам:
как научить LLM выбирать действия, инструменты и бюджет под запрос

Агентные системы на базе LLM сегодня похожи на швейцарский нож. На простой вопрос модель прогоняют через тяжёлый конвейер с поиском, проверками и голосованием, тратя время и токены. А на сложной задаче, наоборот, может не хватить бюджета на рассуждение или не окажется нужного инструмента. В итоге качество прыгает, стоимость растёт, а часть полезной информации теряется в длинном контексте.

В свежей работе исследователи предлагают новую идею: проблему часто решает не новая LLM, а умение каждый раз выбирать режим работы под конкретный запрос. Но тут же возникает комбинаторный кошмар: тысячи вариантов пайплайнов, инструментов, промтов и бюджетов — вручную такое не настроишь, да и перебором слишком дорого.

В обзоре разбираем, как сделаь такой контроллер: по каким признакам он понимает, когда нужен поиск и проверки, как балансирует точность и цену, и почему это даёт заметный прирост на бенчмарках без дообучения самой базовой модели.

📜 Полный обзор

Dataism Science Hub

От статичных пайплайнов к адаптивным агентам | Dataism Science Hub

Как научить LLM выбирать действия, инструменты и бюджет под запрос. Разбор контроллера ARC.

🔥1

117 views22:24

Dataism Science Hub

От восприятия к визуальному мышлению:
как добавить ИИ внутреннее «воображение»

Мультимодальные модели умеют распознать объект на фото, прочитать подпись, ответить на вопрос по картинке. Но стоит попросить их сделать то, что человек делает почти на автомате, мысленно повернуть фигуру, продолжить узор, пройтись по схеме шаг за шагом, и уверенность у ИИ-моделей падает. Как будто ИИ видит, но не может удержать картинку «в голове» и нормально с ней поработать.

Самое интересное, что проблема не всегда в «умности» модели, а в интерфейсе мышления. Мы привыкли лечить ошибки длинными текстовыми рассуждениями, но текст плохо подходит для пространственных операций. А что если часть мышления вообще не переводить в слова?

В полном обзоре разберём работу CogSense: зачем исследователи собрали бенчмарк, который проверяет именно визуальное мышление, и как они добавили модели внутреннее латентное воображение, чтобы она не просто описывала картинку, а действительно могла мысленно симулировать и планировать действия.

📜 Полный обзор

Dataism Science Hub

От восприятия к визуальному мышлению: как добавить ИИ внутреннее «воображение»

За последние годы мультимодальные LLM научились распознавать объекты, но как добавить им визуальное воображение? Разбор концепции Cognitive Supersensing.

👍4🔥1

113 views18:26

Dataism Science Hub

Context Engineering:
новая дисциплина для автономных ИИ-агентов

ИИ-агенты умеют сами лезть в репозиторий, править файлы, гонять тесты и собирать PR. И всё это выглядит круто ровно до момента, когда агент начинает действовать как новичок, который не читал правила команды: ломает стиль, запускает не те команды и оставляет после себя лёгкий хаос. Оказывается, проблемой становится не качество модели, а то, что у неё нет нормальной памяти о проекте.

И вот тут вместо бесконечных промтов команды начали складывать для агентов отдельные файлы-инструкции прямо в репозиторий — вроде AGENTS.md. Это уже не README для людей, а маленькая документация для машины: что здесь принято, что нельзя, как собирать, как тестировать и как не наступать на грабли.

Разберём, насколько эта практика вообще стала массовой, что реально пишут в таких файлах, почему единого шаблона до сих пор нет и как инструкции иногда эволюционируют вместе с кодом — как ещё один живой артефакт разработки.

📜 Полный обзор

Dataism Science Hub

Context Engineering: новая дисциплина для автономных ИИ-агентов

От README для людей — к документации для машин. Анализ того, как разработчики пишут инструкции для ИИ-агентов в open-source репозиториях.

👍2

122 views17:55

Dataism Science Hub

Теория разума для ИИ: что происходит, когда агенты начинают «догадываться» о намерениях друг друга

О мультиагентных системах на базе LLM часто думают как о команде агентов, которая сама договорится, распланирует задачи и всё сделает красиво. Но в реальности «командная работа» ломается на простых вещах: кто куда едет, что уже везёт, кому верить и как не утонуть в догадках друг о друге. Один агент пишет чёткий план, второй понимает его по‑своему, третий молчит — и вместо синхронной работы получается эффект сломанного телефона.

Самое любопытное: кажется логичным дать агентам более человеческое мышление — умение прикидывать намерения других и держать в голове внутреннюю картину мира. Но в экспериментах такие умные надстройки иногда не помогают, а скорее мешают. На одних моделях координация становится лучше, на других проседает, и причина не всегда очевидна.

Сегодня разберём симуляцию города, где три агента спасают районы ресурсами, посмотрим, как устроены общая и личная память, зачем тут логическая проверка через Clingo и почему универсального рецепта вроде добавим Theory of Mind и всё взлетит не существует.

📜 Полный обзор

Dataism Science Hub

Теория разума для ИИ: что происходит, когда агенты начинают «догадываться» о намерениях друг друга

Оценка Theory of Mind и внутренних убеждений в мультиагентных системах на базе LLM. Станет ли координация лучше?

👍2⚡1

153 views17:47

Dataism Science Hub

Почему ИИ-агенты плохо интегрируются с реальными API и как их приручить

Как только мы просим ИИ-агентов действовать в реальном мире — дернуть API, создать задачу в трекере, обновить базу, отправить сообщение в Slack — становится больно. LLM отвечает, но нужен строгий формат, четкие права доступа и предсказуемость. Один лишний символ в JSON, неверный тип поля или вольяжная формулировка — и цепочка ломается, а разработчики обрастают ретраями и костылями. Это и есть парадокс интеграции: чем умнее генерация, тем сложнее надежно встроить ее в жесткие интерфейсы.

Проблема в том, что мы пытаемся управлять софтом через текст, который по природе не обязан быть точным и повторяемым. И вот вопрос: можно ли сделать агента, которому действительно можно доверить действия в корпоративной среде?

Разберем, как Auton Agentic AI Framework предлагает приручить стохастику: разделить агента на проверяемую спецификацию и рантайм-исполнитель, ввести контракты вывода, встроенные ограничения безопасности и память, а заодно все это ускорить.

📜 Полный обзор

Dataism Science Hub

Почему ИИ-агенты плохо интегрируются с реальными API и как их приручить

Auton Agentic AI Framework: как перевести агентов со стохастичной генерации на проверяемые контракты и спецификации.

👍3🔥1

140 viewsedited 23:13

Dataism Science Hub

Всё, что нужно знать об обучении агентов простыми словами

Мы привыкли измерять эффективность LLM по одному ответу: получил лайк или штраф, и на этом всё. Но в реальных задачах так не бывает. Нужно действовать цепочкой шагов: поискать информацию, вызвать инструмент, проверить себя, запомнить важное, исправить ошибку и только потом дойти до результата. И тут есть проблема.

Сегодня исследователи рассматривают LLM как агента в среде. Награда приходит за то, что задача реально решена. Отсюда и самый интересный вопрос: как научить модель не просто отвечать, а вести себя устойчиво, когда информационный мир шумный, шагов много, а результат видно только в конце.

В обзоре рассмотрим, что такое агентное обучение с подкреплением простыми словами, почему здесь важна траектория действий, где это уже даёт мощные результаты (например, в коде), и какие проблемы всё ещё мешают агентам стать по-настоящему надёжными.

📜 Полный обзор

Dataism Science Hub

Всё, что нужно знать об обучении агентов простыми словами

Как обучение с подкреплением (RL) используется не только для «хорошего ответа», а для устойчивого поведения в динамических условиях.

👍3

142 views18:47

Dataism Science Hub

ИИ как коллективный разум: куда ведёт эпоха агентных систем

Мы привыкли думать о будущем ИИ как о появлении одного сверхразума: будто где-то родится один монстр, который станет умнее всех и быстро разгонит себя до недосягаемого уровня. Но в реальности главная проблема другая: как управлять не одним умным мозгом, а целой толпой ИИ-агентов, которые берут роли, спорят, проверяют друг друга и лезут в задачи вроде найма, судов и распределения ресурсов.

Самое интересное, что зачатки этого общества видны уже внутри современных рассуждающих моделей. Они улучшаются не только потому, что дольше думают, а потому что внутри появляется что-то похожее на мини-дискуссию: разные версии ответа, сомнения, проверки, согласование. Как будто модель собирает маленькую команду прямо у себя в голове.

В полной версии разберём, почему «взрыв интеллекта» больше похож на рост города, чем на пробуждение одного гения, как из этого вытекают гибридные воркфлоу и сообщества агентов, и почему следующий слой безопасности — это не дрессировка модели, а правила и институты, которые заставляют системы сдерживать друг друга.

📜 Полный обзор

Dataism Science Hub

ИИ как коллективный разум: куда ведёт эпоха агентных систем

Следующий «взрыв интеллекта» будет ростом сложной социальной системы — множества ИИ-агентов, людей и гибридных «кентавров», которые вместе образуют новый слой коллективного мышления.

111 views14:40

Dataism Science Hub

Ваша LLM умнее, чем кажется — вы просто используете ее неправильно

Мы привыкли мерить модели по количеству параметров, размерам датасетов и изысканности архитектуры. Но в реальных продуктах часто решает другое — обвязка вокруг LLM: что она запоминает, как достаёт контекст, когда вызывает инструменты и как ведёт многошаговый процесс. И вот тут обычно начинается ручная работа: бесконечные правки, эвристики, дебаг по логам и дорогие итерации.

Самое неприятное, что хорошая или плохая обвязки могут дать разницу в разы даже на одной и той же модели. А привычные способы оптимизации промтов почти не помогают: они видят только итоговую оценку, а ошибки в памяти или retrieval могут всплыть через 20 шагов, когда уже поздно гадать, где всё поехало.

В обзоре разберём Meta-Harness — подход, где ИИ улучшает исполняемый код, опираясь на трейсы прошлых прогонов. И посмотрим, что будет, если дать агенту доступ ко всей истории экспериментов.

📜 Полный обзор

Dataism Science Hub

Ваша LLM умнее, чем кажется — вы просто используете ее неправильно

Когда важен не только мозг, но и «обвязка» вокруг него. Как Meta-Harness автоматизирует создание harness для LLM.

119 views20:34

Dataism Science Hub

ИИ не может запустить стартап — и вот почему

ИИ-агенты бодро решают короткие задачи, когда надо нажать пару кнопок, вызвать инструмент и выдать ответ. Но как только работа растягивается на сотни шагов, они начинают сыпаться: ранняя мелкая ошибка тянет за собой цепочку проблем, обратная связь приходит слишком поздно, а важные детали просто вымываются из контекста.

В новом бенчмарке ycbench агент целый год управляет симулированным стартапом: контракты, дедлайны, зарплаты и риски. И примерно треть клиентов там раздувают объём работ так, что компания уходит в минус. Поймать этот паттерн можно только одним способом — заметить, запомнить и не забыть применить позже.

В обзоре разберу, как устроен ycbench, почему лучшим фактором успеха оказались регулярные заметки в памяти, и какие модели реально работают на долгосрочных задачах.

📜 Полный обзор

Dataism Science Hub

ИИ не может запустить стартап — и вот почему

Агенты хорошо справляются с короткими задачами, но на длинной дистанции их подводят память, непоследовательность и неумение следовать стратегии.

🔥3

114 views21:27

Dataism Science Hub

Когда агент — это граф: как устроена оптимизация процессов на лету

В реальных продуктах LLM ищет данные, вызывает инструменты, запускает код, проверяет себя тестами и иногда делает несколько кругов, пока не получится. И вот тут внезапно выясняется, что решает не только качество промта, а то, как вообще устроен весь процесс. Добавили верификатор — стало надёжнее, но дороже.

Сегодня главный вопрос: как правильно собрать работу LLM в цепочку действий, которая умеет меняться по ситуации.

В обзоре разберём, почему исследователи IBM предлагают смотреть на LLM-агентов как на вычислительные графы и почему иногда достаточно небольшой динамики, чтобы резко снизить стоимость работы агента без потери надёжности.

📜 Полный обзор

Dataism Science Hub

Когда агент — это граф: как устроена оптимизация процессов на лету

Как разные подходы оптимизируют рабочие процессы LLM‑агентов — от фиксированных шаблонов до динамических графов, которые собираются и меняются на лету.

❤1👍1

142 views19:27

Dataism Science Hub

Атомарные навыки: как улучшить агентов для программирования на 18.7%

Почему одни ИИ-агенты для программирования уверенно проходят сложные бенчмарки, но теряются на прикладных задачах?

Исследователи предлагают сместить фокус с «больших» составных сценариев вроде багфикса на базовые атомарные навыки: поиск нужного места в коде, редактирование, генерацию тестов, воспроизведение проблем и ревью. Такой подход не только снижает переобучение на конкретные задачи, но и даёт заметный прирост на самых разных реальных кейсах.

В обзоре разберём, почему обучение отдельным навыкам может стать новым стандартом для широкого круга агентов.

📜 Полный обзор

Dataism Science Hub

Атомарные навыки: как улучшить агентов для программирования на 18.7%

Авторы статьи предлагают перестать тренировать ИИ-агентов только на комплексных задачах и вместо этого учить их атомарным навыкам — небольшим, проверяемым строительным блокам разработки.

👍2

111 views10:35

Dataism Science Hub

Двунаправленная память как основа эволюции агентов

У deep research-агентов всё упирается в память: без неё они быстро теряют контекст, а с ней — начинают тонуть в дорогом хранилище прошлых действий.

Исследователи предлагают MIA (Memory Intelligence Agent) — архитектуру, где одна часть системы планирует поиск, другая исполняет его, а память умеет не просто накапливать опыт, но и эволюционировать прямо во время работы. Это важно, потому что такой подход заметно усиливает даже уже сильные модели и позволяет компактным агентам обгонять куда более крупные.

В обзоре разберём, как устроена «двунаправленная память» и почему она может стать следующим шагом для автономных ИИ-исследователей.

📜 Полный обзор

Dataism Science Hub

Двунаправленная память: как основа эволюции агентов, которые помнят прошлые шаги

Сегодняшние «глубокие» AI-агенты умеют не только продолжать текст, но и ходить в поиск, вызывать инструменты, собирать факты из разных источников и шаг за шагом решать сложные вопросы.

👍1🔥1

125 views18:25

Dataism Science Hub

Что происходит когда у ИИ-агента несколько пользователей

Что происходит, когда один ИИ-агент должен угодить сразу нескольким людям, у каждого — свои цели, права и запреты?

Исследователи показывают, что в командной среде модели путаются в приоритетах и нарушают приватность. Авторы предлагают системный взгляд на многопользовательских ИИ-агентов и проверяют современные LLM в стрессовых сценариях, где конфликт интересов неизбежен.

В этом обзоре разбираем, почему это уже не нишевая проблема, а один из главных вызовов для ИИ-агентов, и почему даже передовые модели плохо справляются с этой задачей.

📜 Полный обзор

Dataism Science Hub

Когда у ИИ-агента несколько пользователей

Мы привыкли думать о больших языковых моделях как о личных помощниках: дал задачу — получил ответ. Но реальный мир устроен иначе. В компании ассистенту пишет не один пользователь, а сразу несколько. Как будет вести себя ИИ-агент при таком раскладе?

👍3

139 views17:17

Dataism Science Hub

Как ИИ-агенты учатся помнить через окружающий мир

Память ИИ, возможно, живёт не только внутри модели, но и буквально разбросана по окружающему миру.

Исследователи показывают, что агент может «запоминать» информацию через среду: некоторые наблюдаемые следы и артефакты снижают потребность во внутренней памяти и помогают принимать решения эффективнее.

В этом обзоре разбираем, как среда становится внешней памятью для ИИ-агентов и почему это может изменить подход к обучению с подкреплением.

📜 Полный обзор

Dataism Science Hub

Как ИИ-агенты учатся помнить через окружающий мир

В AI мы привыкли думать о памяти как о чём-то, что находится внутри агента: в скрытом состоянии RNN, в параметрах сети, в буфере опыта, в KV-cache, наконец.

126 views21:25

Dataism Science Hub

Архитектура общей памяти агентов для программирования

Почему одни ИИ-агенты для программирования умнеют на опыте, а другие застревают на одной узкой задачи?

Исследователи предлагают смотреть на память не как на локальный архив под конкретный бенчмарк, а как на общий ресурс, который можно переносить между разными доменами, моделями и типами задач. Главное открытие в том, что лучше всего переносится не сырой код и не детальные трейсы, а абстрактные инсайты и метазнание — именно они реально прибавляют качество.

В этом обзоре разбираем, как устроена общая память агентов и почему уровень абстракции становится ключевым фактором переноса.

📜 Полный обзор

Dataism Science Hub

Архитектура общей памяти агентов для программирования

У кодовых агентов есть странная слабость: они отлично пишут код, но часто повторяют одни и те же ошибки, как стажёр, который каждый раз заново узнаёт, что перед коммитом неплохо бы прогнать тесты.

116 views18:51

Dataism Science Hub

Разработка игр стала новым бенчмарком для ИИ-агентов

Писать код ИИ уже умеет довольно неплохо, но как только дело доходит до картинок, анимаций и игровой сцены, его способности дают слабину.

Именно поэтому разработка игр неожиданно становится новым полигоном для проверки агентов: здесь нужно не только разбираться в большом коде, но и понимать визуальный мир проекта. Авторы предлагают GameDevBench — первый бенчмарк для игровых задач, который показывает, насколько слабы сегодняшние мультимодальные агенты и как даже простая обратная связь через изображения и видео заметно поднимает результат.

В этом обзоре разбираем, почему именно геймдев может стать главным экзаменом для следующего поколения ИИ-агентов.

📜 Полный обзор

Dataism Science Hub

Разработка игр стала новым бенчмарком для ИИ-агентов

Мы привыкли мерить прогресс AI-агентов по задачам вроде исправления багов в GitHub-репозиториях, написания Python-скриптов или фронтенда по макету.

106 views22:18

Dataism Science Hub

Модели мира для агентов нового поколения

От ИИ сегодня ждут, что он будет действовать, принимать решения и не разваливаться при столкновении с реальным миром.

Исследователи предлагают удобную карту «уровней и законов», которая показывает, чем отличается модель, умеющая предсказывать следующий шаг, от той, что способна симулировать целые миры и даже пересобирать собственное понимание мира, если оно дало сбой. Это важно, потому что без таких моделей агенты не смогут надежно работать ни в вебе, ни в науке, ни в среде с людьми и правилами.

В этом обзоре разбираем, как устроены модели мира, где они чаще всего ошибаются и почему именно сейчас это становится ключевой темой для ИИ нового поколения.

📜 Полный обзор

Dataism Science Hub

Модели мира для агентов нового поколения

У генеративного ИИ есть удобная иллюзия компетентности: модель пишет, рисует, иногда даже «планирует», и кажется, что у нее внутри есть нечто вроде картины мира.

👍1

99 views08:40

Dataism Science Hub

Как построить компанию из одного человека и ИИ-агентов

Мы привыкли думать об ИИ-агентах как о наборе полезных ассистентов, но настоящий предел их возможностей сегодня — не в их навыках, а в том, как они организованы в «компанию».

Авторы предлагают OneManCompany — модель, где один человек собирает вокруг себя команду ИИ-агентов, нанимает нужные роли по ходу работы, а сама система умеет планировать, выполнять задачи и пересматривать свои решения. Это важно, потому что речь уже не о статичном пайплайне, а о самоорганизующейся системе, которая может адаптироваться к новым задачам почти как живой бизнес.

В этом обзоре разбираем, как устроена компания из одного человека и ИИ-агентов — и почему именно такая архитектура может стать следующим шагом для мультиагентных систем.

📜 Полный обзор

Dataism Science Hub

Как построить компанию из одного человека и ИИ-агентов

В мире LLM мы привыкли мерить прогресс по отдельным героям: кто лучше пишет код, кто аккуратнее работает с сайтами, кто увереннее вызывает инструменты.

❤2👍2

124 views18:52

Dataism Science Hub

Для чего нужна рекурсивная мультиагентная система

Обычные мультиагентные системы быстро упираются в потолок: слишком много контекста, слишком медленная координация или слишком дорогие вычисления.

Авторы предлагают RecursiveMAS — подход, в котором агенты взаимодействуют не только через сообщения, а через общую рекурсивную «петлю» латентных состояний, что делает совместное рассуждение быстрее, дешевле и точнее. На практике это дает заметный прирост качества, ускорение инференса и резкое снижение расхода токенов на задачах от математики до генерации кода.

В этом обзоре разбираемся, зачем мультиагентным системам рекурсия и может ли именно она стать новой точкой масштабирования ИИ.

📜 Полный обзор

Dataism Science Hub

Для чего нужна рекурсивная мультиагентная система

У мультиагентных систем на базе LLM есть старая, почти бытовая проблема: они слишком много разговаривают. Один агент пишет план, второй его критикует, третий решает задачу, четвертый вызывает инструмент — и вся эта…

👍3🔥1

123 views20:57