Dataism Science Hub
149 subscribers
144 links
🤖 Дневник ИИ-исследователя: обзор новых статей в области искусственного интеллекта

@andre_dataist
Download Telegram
Ваша LLM умнее, чем кажется — вы просто используете ее неправильно

Мы привыкли мерить модели по количеству параметров, размерам датасетов и изысканности архитектуры. Но в реальных продуктах часто решает другое — обвязка вокруг LLM: что она запоминает, как достаёт контекст, когда вызывает инструменты и как ведёт многошаговый процесс. И вот тут обычно начинается ручная работа: бесконечные правки, эвристики, дебаг по логам и дорогие итерации.

Самое неприятное, что хорошая или плохая обвязки могут дать разницу в разы даже на одной и той же модели. А привычные способы оптимизации промтов почти не помогают: они видят только итоговую оценку, а ошибки в памяти или retrieval могут всплыть через 20 шагов, когда уже поздно гадать, где всё поехало.

В обзоре разберём Meta-Harness — подход, где ИИ улучшает исполняемый код, опираясь на трейсы прошлых прогонов. И посмотрим, что будет, если дать агенту доступ ко всей истории экспериментов.

📜 Полный обзор
ИИ не может запустить стартап — и вот почему

ИИ-агенты бодро решают короткие задачи, когда надо нажать пару кнопок, вызвать инструмент и выдать ответ. Но как только работа растягивается на сотни шагов, они начинают сыпаться: ранняя мелкая ошибка тянет за собой цепочку проблем, обратная связь приходит слишком поздно, а важные детали просто вымываются из контекста.

В новом бенчмарке ycbench агент целый год управляет симулированным стартапом: контракты, дедлайны, зарплаты и риски. И примерно треть клиентов там раздувают объём работ так, что компания уходит в минус. Поймать этот паттерн можно только одним способом — заметить, запомнить и не забыть применить позже.

В обзоре разберу, как устроен ycbench, почему лучшим фактором успеха оказались регулярные заметки в памяти, и какие модели реально работают на долгосрочных задачах.

📜 Полный обзор
🔥3
Когда агент — это граф: как устроена оптимизация процессов на лету

В реальных продуктах LLM ищет данные, вызывает инструменты, запускает код, проверяет себя тестами и иногда делает несколько кругов, пока не получится. И вот тут внезапно выясняется, что решает не только качество промта, а то, как вообще устроен весь процесс. Добавили верификатор — стало надёжнее, но дороже.

Сегодня главный вопрос: как правильно собрать работу LLM в цепочку действий, которая умеет меняться по ситуации.

В обзоре разберём, почему исследователи IBM предлагают смотреть на LLM-агентов как на вычислительные графы и почему иногда достаточно небольшой динамики, чтобы резко снизить стоимость работы агента без потери надёжности.

📜 Полный обзор
1👍1
Атомарные навыки: как улучшить агентов для программирования на 18.7%

Почему одни ИИ-агенты для программирования уверенно проходят сложные бенчмарки, но теряются на прикладных задачах?

Исследователи предлагают сместить фокус с «больших» составных сценариев вроде багфикса на базовые атомарные навыки: поиск нужного места в коде, редактирование, генерацию тестов, воспроизведение проблем и ревью. Такой подход не только снижает переобучение на конкретные задачи, но и даёт заметный прирост на самых разных реальных кейсах.

В обзоре разберём, почему обучение отдельным навыкам может стать новым стандартом для широкого круга агентов.

📜 Полный обзор
👍2
Двунаправленная память как основа эволюции агентов

У deep research-агентов всё упирается в память: без неё они быстро теряют контекст, а с ней — начинают тонуть в дорогом хранилище прошлых действий.

Исследователи предлагают MIA (Memory Intelligence Agent) — архитектуру, где одна часть системы планирует поиск, другая исполняет его, а память умеет не просто накапливать опыт, но и эволюционировать прямо во время работы. Это важно, потому что такой подход заметно усиливает даже уже сильные модели и позволяет компактным агентам обгонять куда более крупные.

В обзоре разберём, как устроена «двунаправленная память» и почему она может стать следующим шагом для автономных ИИ-исследователей.

📜 Полный обзор
👍1🔥1
Что происходит когда у ИИ-агента несколько пользователей

Что происходит, когда один ИИ-агент должен угодить сразу нескольким людям, у каждого — свои цели, права и запреты?

Исследователи показывают, что в командной среде модели путаются в приоритетах и нарушают приватность. Авторы предлагают системный взгляд на многопользовательских ИИ-агентов и проверяют современные LLM в стрессовых сценариях, где конфликт интересов неизбежен.

В этом обзоре разбираем, почему это уже не нишевая проблема, а один из главных вызовов для ИИ-агентов, и почему даже передовые модели плохо справляются с этой задачей.

📜 Полный обзор
👍3
Как ИИ-агенты учатся помнить через окружающий мир

Память ИИ, возможно, живёт не только внутри модели, но и буквально разбросана по окружающему миру.

Исследователи показывают, что агент может «запоминать» информацию через среду: некоторые наблюдаемые следы и артефакты снижают потребность во внутренней памяти и помогают принимать решения эффективнее.

В этом обзоре разбираем, как среда становится внешней памятью для ИИ-агентов и почему это может изменить подход к обучению с подкреплением.

📜 Полный обзор
Архитектура общей памяти агентов для программирования

Почему одни ИИ-агенты для программирования умнеют на опыте, а другие застревают на одной узкой задачи?

Исследователи предлагают смотреть на память не как на локальный архив под конкретный бенчмарк, а как на общий ресурс, который можно переносить между разными доменами, моделями и типами задач. Главное открытие в том, что лучше всего переносится не сырой код и не детальные трейсы, а абстрактные инсайты и метазнание — именно они реально прибавляют качество.

В этом обзоре разбираем, как устроена общая память агентов и почему уровень абстракции становится ключевым фактором переноса.

📜 Полный обзор
Разработка игр стала новым бенчмарком для ИИ-агентов

Писать код ИИ уже умеет довольно неплохо, но как только дело доходит до картинок, анимаций и игровой сцены, его способности дают слабину.

Именно поэтому разработка игр неожиданно становится новым полигоном для проверки агентов: здесь нужно не только разбираться в большом коде, но и понимать визуальный мир проекта. Авторы предлагают GameDevBench — первый бенчмарк для игровых задач, который показывает, насколько слабы сегодняшние мультимодальные агенты и как даже простая обратная связь через изображения и видео заметно поднимает результат.

В этом обзоре разбираем, почему именно геймдев может стать главным экзаменом для следующего поколения ИИ-агентов.

📜 Полный обзор
Модели мира для агентов нового поколения

От ИИ сегодня ждут, что он будет действовать, принимать решения и не разваливаться при столкновении с реальным миром.

Исследователи предлагают удобную карту «уровней и законов», которая показывает, чем отличается модель, умеющая предсказывать следующий шаг, от той, что способна симулировать целые миры и даже пересобирать собственное понимание мира, если оно дало сбой. Это важно, потому что без таких моделей агенты не смогут надежно работать ни в вебе, ни в науке, ни в среде с людьми и правилами.

В этом обзоре разбираем, как устроены модели мира, где они чаще всего ошибаются и почему именно сейчас это становится ключевой темой для ИИ нового поколения.

📜 Полный обзор
👍1
Как построить компанию из одного человека и ИИ-агентов

Мы привыкли думать об ИИ-агентах как о наборе полезных ассистентов, но настоящий предел их возможностей сегодня — не в их навыках, а в том, как они организованы в «компанию».

Авторы предлагают OneManCompany — модель, где один человек собирает вокруг себя команду ИИ-агентов, нанимает нужные роли по ходу работы, а сама система умеет планировать, выполнять задачи и пересматривать свои решения. Это важно, потому что речь уже не о статичном пайплайне, а о самоорганизующейся системе, которая может адаптироваться к новым задачам почти как живой бизнес.

В этом обзоре разбираем, как устроена компания из одного человека и ИИ-агентов — и почему именно такая архитектура может стать следующим шагом для мультиагентных систем.

📜 Полный обзор
2👍2
Для чего нужна рекурсивная мультиагентная система

Обычные мультиагентные системы быстро упираются в потолок: слишком много контекста, слишком медленная координация или слишком дорогие вычисления.

Авторы предлагают RecursiveMAS — подход, в котором агенты взаимодействуют не только через сообщения, а через общую рекурсивную «петлю» латентных состояний, что делает совместное рассуждение быстрее, дешевле и точнее. На практике это дает заметный прирост качества, ускорение инференса и резкое снижение расхода токенов на задачах от математики до генерации кода.

В этом обзоре разбираемся, зачем мультиагентным системам рекурсия и может ли именно она стать новой точкой масштабирования ИИ.

📜 Полный обзор
👍3🔥1
Почему агенты хуже учатся на длинных задачах

Чем длиннее задача для ИИ-агента, тем чаще он начинает сыпаться — и дело не только в слабых алгоритмах, а в самой длине цепочки действий.

Авторы показывают, что даже при одинаковой логике и правилах именно большой горизонт задачи становится узким местом обучения: ломает исследование среды, мешает связать действия с результатом и делает тренировку нестабильной. Выход, как ни странно, в сокращении горизонта: это не только улучшает обучение, но и помогает моделям потом лучше справляться с более длинными сценариями.

В этом обзоре разбираем, почему длинные задачи так сложны для агентов и что с этим можно сделать.

📜 Полный обзор
👍2
Что на самом деле делает мультиагентные системы умнее

Мультиагентные системы кажутся умнее просто потому, что вокруг модели навесили сложную оркестрацию, — но что, если дело совсем не в этом?

Исследователи утверждают: настоящий прирост даёт не внешняя обвязка над моделью, а внутренняя «тяжёлая мыслительная» способность модели — сначала параллельное рассуждение, затем сжатое обобщение. Это важно, потому что такой навык оказывается сильнее привычных подходов и даже может масштабироваться через обучение с подкрепление.

В этом обзоре разбираемся, что на самом деле делает мультиагентные системы умнее.

📜 Полный обзор
👍3🔥1
Синтетические компьютеры учат агентов работать неделями

Проблема ИИ-агентов уже не в том, чтобы нажать кнопку, а в том, чтобы неделями не терять контекст в чужом рабочем компьютере с папками, файлами и бесконечными задачами.

Исследователи предлагают строить масштабные синтетические компьютеры — с реалистичной структурой директорий, документами, таблицами и презентациями — и запускать в них длинные симуляции, где агенты месяцами по человеческим меркам учатся доводить сложную офисную работу до результата. Это важно, потому что именно такая среда приближает обучение ИИ к реальной продуктивности, а не к лабораторным прототипам.

В этом обзоре разбираем, как цифровые рабочие миры могут стать полигоном для следующего поколения агентных систем.

📜 Полный обзор
👍1
Как агентам делегировать задачи без потери контроля

Чем умнее ИИ-агенты, тем опаснее становится простая передача задач «на авось» — без ясных ролей, границ и ответственности контроль теряется в самый неудобный момент.

Исследователи предлагают адаптивную модель делегирования, где важны не только распределение работы, но и передача полномочий, доверие, подотчётность и способность перестраиваться при сбоях и изменениях среды. Это особенно важно для мира, где задачи будут выполнять цепочки из ИИ-агентов и людей, а ошибки одной операции могут стоить слишком дорого.

В этом обзоре разбираем, как делегировать агентам задачи без потери контроля.

📜 Полный обзор
Как ИИ-соавтор для математиков решает открытые задачи

Математика долго считалась последней территорией, где ИИ может лишь помогать по мелочи, но не думать рядом с человеком.

Теперь появляется формат ИИ-соавтора: он не просто считает и ищет статьи, а участвует в исследовательском процессе целиком — от гипотез и тупиков до доказательств и новых направлений. Это важно, потому что речь уже не о «умном калькуляторе», а о рабочей среде, которая помогает продвигаться в открытых задачах и даже находит упущенные идеи в литературе.

В этом обзоре разбираем, как устроен такой союз математика и машины и что он меняет в самой логике научного поиска.

📜 Полный обзор
Как графы знаний учат LLM меньше галлюцинировать

LLM до сих пор уверенно выдумывают факты — особенно там, где нужна точность, а не красивая формулировка.

Исследователи из Сбера предлагают лечить эту проблему не просто поиском по базе, а связкой модели с графом знаний и многошаговым, адаптивным поиском, который уточняет запрос на ходу и лучше держится за реальные сущности и связи. Такой подход заметно снижает галлюцинации и повышает точность ответов, причём даже на сравнительно компактных моделях.

В этом обзоре разбираем, как графы знаний становятся внешней опорой для LLM.

📜 Полный обзор
Как ИИ-агенты собирают презентации нового поколения с голосом, видео и интерактивом

Презентации больше не обязаны быть скучным набором слайдов — теперь ИИ собирает из запроса почти готовое выступление с голосом, видео и даже диалогом.

Разработчики показывают PresentAgent-2: систему, которая сама исследует тему, подбирает текст, изображения, GIF и видео, пишет сценарий и превращает всё это в полноценную мультимедийную презентацию. Особенно важно, что она умеет вести обсуждение и отвечать на вопросы по ходу, приближая формат к живому выступлению.

В этом обзоре разбираем, как презентации превращаются из статичных документов в интерактивный медиапродукт.

📜 Полный обзор
Почему код стал операционной системой для агентов

Код для ИИ-агентов стал их рабочей средой, памятью, инструментом и даже способом проверять самих себя.

Исследователи предлагают смотреть на код как на «операционную систему» агентных систем: через него агенты планируют, действуют, координируются и масштабируются от одиночных сценариев до команд из нескольких агентов. Это важно, потому что именно такой подход делает ИИ не только умнее, но и надежнее, проверяемее и полезнее в реальных задачах — от DevOps до научных исследований.

В этом обзоре разбираем, почему код становится главным каркасом новой агентной эпохи.

📜 Полный обзор