Dataism Science Hub – Telegram

Dataism Science Hub

@dataism_science

149 subscribers

144 links

🤖 Дневник ИИ-исследователя: обзор новых статей в области искусственного интеллекта

@andre_dataist

Download Telegram

About

Blog

Apps

Platform

Dataism Science Hub

149 subscribers

Dataism Science Hub

Теория разума для ИИ: что происходит, когда агенты начинают «догадываться» о намерениях друг друга

О мультиагентных системах на базе LLM часто думают как о команде агентов, которая сама договорится, распланирует задачи и всё сделает красиво. Но в реальности «командная работа» ломается на простых вещах: кто куда едет, что уже везёт, кому верить и как не утонуть в догадках друг о друге. Один агент пишет чёткий план, второй понимает его по‑своему, третий молчит — и вместо синхронной работы получается эффект сломанного телефона.

Самое любопытное: кажется логичным дать агентам более человеческое мышление — умение прикидывать намерения других и держать в голове внутреннюю картину мира. Но в экспериментах такие умные надстройки иногда не помогают, а скорее мешают. На одних моделях координация становится лучше, на других проседает, и причина не всегда очевидна.

Сегодня разберём симуляцию города, где три агента спасают районы ресурсами, посмотрим, как устроены общая и личная память, зачем тут логическая проверка через Clingo и почему универсального рецепта вроде добавим Theory of Mind и всё взлетит не существует.

📜 Полный обзор

Dataism Science Hub

Теория разума для ИИ: что происходит, когда агенты начинают «догадываться» о намерениях друг друга

Оценка Theory of Mind и внутренних убеждений в мультиагентных системах на базе LLM. Станет ли координация лучше?

👍2⚡1

153 views17:47

Dataism Science Hub

Почему ИИ-агенты плохо интегрируются с реальными API и как их приручить

Как только мы просим ИИ-агентов действовать в реальном мире — дернуть API, создать задачу в трекере, обновить базу, отправить сообщение в Slack — становится больно. LLM отвечает, но нужен строгий формат, четкие права доступа и предсказуемость. Один лишний символ в JSON, неверный тип поля или вольяжная формулировка — и цепочка ломается, а разработчики обрастают ретраями и костылями. Это и есть парадокс интеграции: чем умнее генерация, тем сложнее надежно встроить ее в жесткие интерфейсы.

Проблема в том, что мы пытаемся управлять софтом через текст, который по природе не обязан быть точным и повторяемым. И вот вопрос: можно ли сделать агента, которому действительно можно доверить действия в корпоративной среде?

Разберем, как Auton Agentic AI Framework предлагает приручить стохастику: разделить агента на проверяемую спецификацию и рантайм-исполнитель, ввести контракты вывода, встроенные ограничения безопасности и память, а заодно все это ускорить.

📜 Полный обзор

Dataism Science Hub

Почему ИИ-агенты плохо интегрируются с реальными API и как их приручить

Auton Agentic AI Framework: как перевести агентов со стохастичной генерации на проверяемые контракты и спецификации.

👍3🔥1

140 viewsedited 23:13

Dataism Science Hub

Всё, что нужно знать об обучении агентов простыми словами

Мы привыкли измерять эффективность LLM по одному ответу: получил лайк или штраф, и на этом всё. Но в реальных задачах так не бывает. Нужно действовать цепочкой шагов: поискать информацию, вызвать инструмент, проверить себя, запомнить важное, исправить ошибку и только потом дойти до результата. И тут есть проблема.

Сегодня исследователи рассматривают LLM как агента в среде. Награда приходит за то, что задача реально решена. Отсюда и самый интересный вопрос: как научить модель не просто отвечать, а вести себя устойчиво, когда информационный мир шумный, шагов много, а результат видно только в конце.

В обзоре рассмотрим, что такое агентное обучение с подкреплением простыми словами, почему здесь важна траектория действий, где это уже даёт мощные результаты (например, в коде), и какие проблемы всё ещё мешают агентам стать по-настоящему надёжными.

📜 Полный обзор

Dataism Science Hub

Всё, что нужно знать об обучении агентов простыми словами

Как обучение с подкреплением (RL) используется не только для «хорошего ответа», а для устойчивого поведения в динамических условиях.

👍3

142 views18:47

Dataism Science Hub

ИИ как коллективный разум: куда ведёт эпоха агентных систем

Мы привыкли думать о будущем ИИ как о появлении одного сверхразума: будто где-то родится один монстр, который станет умнее всех и быстро разгонит себя до недосягаемого уровня. Но в реальности главная проблема другая: как управлять не одним умным мозгом, а целой толпой ИИ-агентов, которые берут роли, спорят, проверяют друг друга и лезут в задачи вроде найма, судов и распределения ресурсов.

Самое интересное, что зачатки этого общества видны уже внутри современных рассуждающих моделей. Они улучшаются не только потому, что дольше думают, а потому что внутри появляется что-то похожее на мини-дискуссию: разные версии ответа, сомнения, проверки, согласование. Как будто модель собирает маленькую команду прямо у себя в голове.

В полной версии разберём, почему «взрыв интеллекта» больше похож на рост города, чем на пробуждение одного гения, как из этого вытекают гибридные воркфлоу и сообщества агентов, и почему следующий слой безопасности — это не дрессировка модели, а правила и институты, которые заставляют системы сдерживать друг друга.

📜 Полный обзор

Dataism Science Hub

ИИ как коллективный разум: куда ведёт эпоха агентных систем

Следующий «взрыв интеллекта» будет ростом сложной социальной системы — множества ИИ-агентов, людей и гибридных «кентавров», которые вместе образуют новый слой коллективного мышления.

111 views14:40

Dataism Science Hub

Ваша LLM умнее, чем кажется — вы просто используете ее неправильно

Мы привыкли мерить модели по количеству параметров, размерам датасетов и изысканности архитектуры. Но в реальных продуктах часто решает другое — обвязка вокруг LLM: что она запоминает, как достаёт контекст, когда вызывает инструменты и как ведёт многошаговый процесс. И вот тут обычно начинается ручная работа: бесконечные правки, эвристики, дебаг по логам и дорогие итерации.

Самое неприятное, что хорошая или плохая обвязки могут дать разницу в разы даже на одной и той же модели. А привычные способы оптимизации промтов почти не помогают: они видят только итоговую оценку, а ошибки в памяти или retrieval могут всплыть через 20 шагов, когда уже поздно гадать, где всё поехало.

В обзоре разберём Meta-Harness — подход, где ИИ улучшает исполняемый код, опираясь на трейсы прошлых прогонов. И посмотрим, что будет, если дать агенту доступ ко всей истории экспериментов.

📜 Полный обзор

Dataism Science Hub

Ваша LLM умнее, чем кажется — вы просто используете ее неправильно

Когда важен не только мозг, но и «обвязка» вокруг него. Как Meta-Harness автоматизирует создание harness для LLM.

119 views20:34

Dataism Science Hub

ИИ не может запустить стартап — и вот почему

ИИ-агенты бодро решают короткие задачи, когда надо нажать пару кнопок, вызвать инструмент и выдать ответ. Но как только работа растягивается на сотни шагов, они начинают сыпаться: ранняя мелкая ошибка тянет за собой цепочку проблем, обратная связь приходит слишком поздно, а важные детали просто вымываются из контекста.

В новом бенчмарке ycbench агент целый год управляет симулированным стартапом: контракты, дедлайны, зарплаты и риски. И примерно треть клиентов там раздувают объём работ так, что компания уходит в минус. Поймать этот паттерн можно только одним способом — заметить, запомнить и не забыть применить позже.

В обзоре разберу, как устроен ycbench, почему лучшим фактором успеха оказались регулярные заметки в памяти, и какие модели реально работают на долгосрочных задачах.

📜 Полный обзор

Dataism Science Hub

ИИ не может запустить стартап — и вот почему

Агенты хорошо справляются с короткими задачами, но на длинной дистанции их подводят память, непоследовательность и неумение следовать стратегии.

🔥3

114 views21:27

Dataism Science Hub

Когда агент — это граф: как устроена оптимизация процессов на лету

В реальных продуктах LLM ищет данные, вызывает инструменты, запускает код, проверяет себя тестами и иногда делает несколько кругов, пока не получится. И вот тут внезапно выясняется, что решает не только качество промта, а то, как вообще устроен весь процесс. Добавили верификатор — стало надёжнее, но дороже.

Сегодня главный вопрос: как правильно собрать работу LLM в цепочку действий, которая умеет меняться по ситуации.

В обзоре разберём, почему исследователи IBM предлагают смотреть на LLM-агентов как на вычислительные графы и почему иногда достаточно небольшой динамики, чтобы резко снизить стоимость работы агента без потери надёжности.

📜 Полный обзор

Dataism Science Hub

Когда агент — это граф: как устроена оптимизация процессов на лету

Как разные подходы оптимизируют рабочие процессы LLM‑агентов — от фиксированных шаблонов до динамических графов, которые собираются и меняются на лету.

❤1👍1

142 views19:27

Dataism Science Hub

Атомарные навыки: как улучшить агентов для программирования на 18.7%

Почему одни ИИ-агенты для программирования уверенно проходят сложные бенчмарки, но теряются на прикладных задачах?

Исследователи предлагают сместить фокус с «больших» составных сценариев вроде багфикса на базовые атомарные навыки: поиск нужного места в коде, редактирование, генерацию тестов, воспроизведение проблем и ревью. Такой подход не только снижает переобучение на конкретные задачи, но и даёт заметный прирост на самых разных реальных кейсах.

В обзоре разберём, почему обучение отдельным навыкам может стать новым стандартом для широкого круга агентов.

📜 Полный обзор

Dataism Science Hub

Атомарные навыки: как улучшить агентов для программирования на 18.7%

Авторы статьи предлагают перестать тренировать ИИ-агентов только на комплексных задачах и вместо этого учить их атомарным навыкам — небольшим, проверяемым строительным блокам разработки.

👍2

111 views10:35

Dataism Science Hub

Двунаправленная память как основа эволюции агентов

У deep research-агентов всё упирается в память: без неё они быстро теряют контекст, а с ней — начинают тонуть в дорогом хранилище прошлых действий.

Исследователи предлагают MIA (Memory Intelligence Agent) — архитектуру, где одна часть системы планирует поиск, другая исполняет его, а память умеет не просто накапливать опыт, но и эволюционировать прямо во время работы. Это важно, потому что такой подход заметно усиливает даже уже сильные модели и позволяет компактным агентам обгонять куда более крупные.

В обзоре разберём, как устроена «двунаправленная память» и почему она может стать следующим шагом для автономных ИИ-исследователей.

📜 Полный обзор

Dataism Science Hub

Двунаправленная память: как основа эволюции агентов, которые помнят прошлые шаги

Сегодняшние «глубокие» AI-агенты умеют не только продолжать текст, но и ходить в поиск, вызывать инструменты, собирать факты из разных источников и шаг за шагом решать сложные вопросы.

👍1🔥1

125 views18:25

Dataism Science Hub

Что происходит когда у ИИ-агента несколько пользователей

Что происходит, когда один ИИ-агент должен угодить сразу нескольким людям, у каждого — свои цели, права и запреты?

Исследователи показывают, что в командной среде модели путаются в приоритетах и нарушают приватность. Авторы предлагают системный взгляд на многопользовательских ИИ-агентов и проверяют современные LLM в стрессовых сценариях, где конфликт интересов неизбежен.

В этом обзоре разбираем, почему это уже не нишевая проблема, а один из главных вызовов для ИИ-агентов, и почему даже передовые модели плохо справляются с этой задачей.

📜 Полный обзор

Dataism Science Hub

Когда у ИИ-агента несколько пользователей

Мы привыкли думать о больших языковых моделях как о личных помощниках: дал задачу — получил ответ. Но реальный мир устроен иначе. В компании ассистенту пишет не один пользователь, а сразу несколько. Как будет вести себя ИИ-агент при таком раскладе?

👍3

139 views17:17

Dataism Science Hub

Как ИИ-агенты учатся помнить через окружающий мир

Память ИИ, возможно, живёт не только внутри модели, но и буквально разбросана по окружающему миру.

Исследователи показывают, что агент может «запоминать» информацию через среду: некоторые наблюдаемые следы и артефакты снижают потребность во внутренней памяти и помогают принимать решения эффективнее.

В этом обзоре разбираем, как среда становится внешней памятью для ИИ-агентов и почему это может изменить подход к обучению с подкреплением.

📜 Полный обзор

Dataism Science Hub

Как ИИ-агенты учатся помнить через окружающий мир

В AI мы привыкли думать о памяти как о чём-то, что находится внутри агента: в скрытом состоянии RNN, в параметрах сети, в буфере опыта, в KV-cache, наконец.

126 views21:25

Dataism Science Hub

Архитектура общей памяти агентов для программирования

Почему одни ИИ-агенты для программирования умнеют на опыте, а другие застревают на одной узкой задачи?

Исследователи предлагают смотреть на память не как на локальный архив под конкретный бенчмарк, а как на общий ресурс, который можно переносить между разными доменами, моделями и типами задач. Главное открытие в том, что лучше всего переносится не сырой код и не детальные трейсы, а абстрактные инсайты и метазнание — именно они реально прибавляют качество.

В этом обзоре разбираем, как устроена общая память агентов и почему уровень абстракции становится ключевым фактором переноса.

📜 Полный обзор

Dataism Science Hub

Архитектура общей памяти агентов для программирования

У кодовых агентов есть странная слабость: они отлично пишут код, но часто повторяют одни и те же ошибки, как стажёр, который каждый раз заново узнаёт, что перед коммитом неплохо бы прогнать тесты.

116 views18:51

Dataism Science Hub

Разработка игр стала новым бенчмарком для ИИ-агентов

Писать код ИИ уже умеет довольно неплохо, но как только дело доходит до картинок, анимаций и игровой сцены, его способности дают слабину.

Именно поэтому разработка игр неожиданно становится новым полигоном для проверки агентов: здесь нужно не только разбираться в большом коде, но и понимать визуальный мир проекта. Авторы предлагают GameDevBench — первый бенчмарк для игровых задач, который показывает, насколько слабы сегодняшние мультимодальные агенты и как даже простая обратная связь через изображения и видео заметно поднимает результат.

В этом обзоре разбираем, почему именно геймдев может стать главным экзаменом для следующего поколения ИИ-агентов.

📜 Полный обзор

Dataism Science Hub

Разработка игр стала новым бенчмарком для ИИ-агентов

Мы привыкли мерить прогресс AI-агентов по задачам вроде исправления багов в GitHub-репозиториях, написания Python-скриптов или фронтенда по макету.

106 views22:18

Dataism Science Hub

Модели мира для агентов нового поколения

От ИИ сегодня ждут, что он будет действовать, принимать решения и не разваливаться при столкновении с реальным миром.

Исследователи предлагают удобную карту «уровней и законов», которая показывает, чем отличается модель, умеющая предсказывать следующий шаг, от той, что способна симулировать целые миры и даже пересобирать собственное понимание мира, если оно дало сбой. Это важно, потому что без таких моделей агенты не смогут надежно работать ни в вебе, ни в науке, ни в среде с людьми и правилами.

В этом обзоре разбираем, как устроены модели мира, где они чаще всего ошибаются и почему именно сейчас это становится ключевой темой для ИИ нового поколения.

📜 Полный обзор

Dataism Science Hub

Модели мира для агентов нового поколения

У генеративного ИИ есть удобная иллюзия компетентности: модель пишет, рисует, иногда даже «планирует», и кажется, что у нее внутри есть нечто вроде картины мира.

👍1

99 views08:40

Dataism Science Hub

Как построить компанию из одного человека и ИИ-агентов

Мы привыкли думать об ИИ-агентах как о наборе полезных ассистентов, но настоящий предел их возможностей сегодня — не в их навыках, а в том, как они организованы в «компанию».

Авторы предлагают OneManCompany — модель, где один человек собирает вокруг себя команду ИИ-агентов, нанимает нужные роли по ходу работы, а сама система умеет планировать, выполнять задачи и пересматривать свои решения. Это важно, потому что речь уже не о статичном пайплайне, а о самоорганизующейся системе, которая может адаптироваться к новым задачам почти как живой бизнес.

В этом обзоре разбираем, как устроена компания из одного человека и ИИ-агентов — и почему именно такая архитектура может стать следующим шагом для мультиагентных систем.

📜 Полный обзор

Dataism Science Hub

Как построить компанию из одного человека и ИИ-агентов

В мире LLM мы привыкли мерить прогресс по отдельным героям: кто лучше пишет код, кто аккуратнее работает с сайтами, кто увереннее вызывает инструменты.

❤2👍2

124 views18:52

Dataism Science Hub

Для чего нужна рекурсивная мультиагентная система

Обычные мультиагентные системы быстро упираются в потолок: слишком много контекста, слишком медленная координация или слишком дорогие вычисления.

Авторы предлагают RecursiveMAS — подход, в котором агенты взаимодействуют не только через сообщения, а через общую рекурсивную «петлю» латентных состояний, что делает совместное рассуждение быстрее, дешевле и точнее. На практике это дает заметный прирост качества, ускорение инференса и резкое снижение расхода токенов на задачах от математики до генерации кода.

В этом обзоре разбираемся, зачем мультиагентным системам рекурсия и может ли именно она стать новой точкой масштабирования ИИ.

📜 Полный обзор

Dataism Science Hub

Для чего нужна рекурсивная мультиагентная система

У мультиагентных систем на базе LLM есть старая, почти бытовая проблема: они слишком много разговаривают. Один агент пишет план, второй его критикует, третий решает задачу, четвертый вызывает инструмент — и вся эта…

👍3🔥1

123 views20:57

Dataism Science Hub

Почему агенты хуже учатся на длинных задачах

Чем длиннее задача для ИИ-агента, тем чаще он начинает сыпаться — и дело не только в слабых алгоритмах, а в самой длине цепочки действий.

Авторы показывают, что даже при одинаковой логике и правилах именно большой горизонт задачи становится узким местом обучения: ломает исследование среды, мешает связать действия с результатом и делает тренировку нестабильной. Выход, как ни странно, в сокращении горизонта: это не только улучшает обучение, но и помогает моделям потом лучше справляться с более длинными сценариями.

В этом обзоре разбираем, почему длинные задачи так сложны для агентов и что с этим можно сделать.

📜 Полный обзор

Dataism Science Hub

Почему агенты хуже учатся на длинных задачах

Вокруг LLM-агентов сегодня много шума: мы учим модели пользоваться инструментами, ходить по сайтам, чинить код, решать многошаговые задачи.

👍2

88 views20:57

Dataism Science Hub

Что на самом деле делает мультиагентные системы умнее

Мультиагентные системы кажутся умнее просто потому, что вокруг модели навесили сложную оркестрацию, — но что, если дело совсем не в этом?

Исследователи утверждают: настоящий прирост даёт не внешняя обвязка над моделью, а внутренняя «тяжёлая мыслительная» способность модели — сначала параллельное рассуждение, затем сжатое обобщение. Это важно, потому что такой навык оказывается сильнее привычных подходов и даже может масштабироваться через обучение с подкрепление.

В этом обзоре разбираемся, что на самом деле делает мультиагентные системы умнее.

📜 Полный обзор

Dataism Science Hub

Что на самом деле делает мультиагентные системы умнее

Вокруг современных агентных систем для LLM сложился почти культ инженерной сложности. Оркестраторы, субагенты, память, библиотеки навыков, вызовы инструментов — все это выглядит впечатляюще, но оставляет важный вопрос…

👍3🔥1

98 views18:42

Dataism Science Hub

Синтетические компьютеры учат агентов работать неделями

Проблема ИИ-агентов уже не в том, чтобы нажать кнопку, а в том, чтобы неделями не терять контекст в чужом рабочем компьютере с папками, файлами и бесконечными задачами.

Исследователи предлагают строить масштабные синтетические компьютеры — с реалистичной структурой директорий, документами, таблицами и презентациями — и запускать в них длинные симуляции, где агенты месяцами по человеческим меркам учатся доводить сложную офисную работу до результата. Это важно, потому что именно такая среда приближает обучение ИИ к реальной продуктивности, а не к лабораторным прототипам.

В этом обзоре разбираем, как цифровые рабочие миры могут стать полигоном для следующего поколения агентных систем.

📜 Полный обзор

Dataism Science Hub

Синтетические компьютеры учат агентов работать неделями

Большая проблема современных ИИ-агентов в том, что мы тестируем их на задачах, а работать им приходится в контексте.

👍1

120 views16:38

Dataism Science Hub

Как агентам делегировать задачи без потери контроля

Чем умнее ИИ-агенты, тем опаснее становится простая передача задач «на авось» — без ясных ролей, границ и ответственности контроль теряется в самый неудобный момент.

Исследователи предлагают адаптивную модель делегирования, где важны не только распределение работы, но и передача полномочий, доверие, подотчётность и способность перестраиваться при сбоях и изменениях среды. Это особенно важно для мира, где задачи будут выполнять цепочки из ИИ-агентов и людей, а ошибки одной операции могут стоить слишком дорого.

В этом обзоре разбираем, как делегировать агентам задачи без потери контроля.

📜 Полный обзор

Dataism Science Hub

Как агентам делегировать задачи без потери контроля

Сегодняшние агенты на базе LLM уже умеют не только отвечать на вопросы, но и выполнять цепочки действий: открыть инструмент, вызвать API, написать код, проверить результат, отправить письмо.

103 views20:02

Dataism Science Hub

Как ИИ-соавтор для математиков решает открытые задачи

Математика долго считалась последней территорией, где ИИ может лишь помогать по мелочи, но не думать рядом с человеком.

Теперь появляется формат ИИ-соавтора: он не просто считает и ищет статьи, а участвует в исследовательском процессе целиком — от гипотез и тупиков до доказательств и новых направлений. Это важно, потому что речь уже не о «умном калькуляторе», а о рабочей среде, которая помогает продвигаться в открытых задачах и даже находит упущенные идеи в литературе.

В этом обзоре разбираем, как устроен такой союз математика и машины и что он меняет в самой логике научного поиска.

📜 Полный обзор

Dataism Science Hub

Как ИИ-соавтор для математиков решает открытые задачи

Большинство сегодняшних математических ИИ-систем умеют впечатлять в режиме «вот задача — вот ответ». Но настоящая математика так не работает.

126 views20:33