Dataism Science Hub – Telegram

Dataism Science Hub

@dataism_science

149 subscribers

144 links

🤖 Дневник ИИ-исследователя: обзор новых статей в области искусственного интеллекта

@andre_dataist

Download Telegram

About

Blog

Apps

Platform

Dataism Science Hub

149 subscribers

Dataism Science Hub

Ваша LLM умнее, чем кажется — вы просто используете ее неправильно

Мы привыкли мерить модели по количеству параметров, размерам датасетов и изысканности архитектуры. Но в реальных продуктах часто решает другое — обвязка вокруг LLM: что она запоминает, как достаёт контекст, когда вызывает инструменты и как ведёт многошаговый процесс. И вот тут обычно начинается ручная работа: бесконечные правки, эвристики, дебаг по логам и дорогие итерации.

Самое неприятное, что хорошая или плохая обвязки могут дать разницу в разы даже на одной и той же модели. А привычные способы оптимизации промтов почти не помогают: они видят только итоговую оценку, а ошибки в памяти или retrieval могут всплыть через 20 шагов, когда уже поздно гадать, где всё поехало.

В обзоре разберём Meta-Harness — подход, где ИИ улучшает исполняемый код, опираясь на трейсы прошлых прогонов. И посмотрим, что будет, если дать агенту доступ ко всей истории экспериментов.

📜 Полный обзор

Dataism Science Hub

Ваша LLM умнее, чем кажется — вы просто используете ее неправильно

Когда важен не только мозг, но и «обвязка» вокруг него. Как Meta-Harness автоматизирует создание harness для LLM.

119 views20:34

Dataism Science Hub

ИИ не может запустить стартап — и вот почему

ИИ-агенты бодро решают короткие задачи, когда надо нажать пару кнопок, вызвать инструмент и выдать ответ. Но как только работа растягивается на сотни шагов, они начинают сыпаться: ранняя мелкая ошибка тянет за собой цепочку проблем, обратная связь приходит слишком поздно, а важные детали просто вымываются из контекста.

В новом бенчмарке ycbench агент целый год управляет симулированным стартапом: контракты, дедлайны, зарплаты и риски. И примерно треть клиентов там раздувают объём работ так, что компания уходит в минус. Поймать этот паттерн можно только одним способом — заметить, запомнить и не забыть применить позже.

В обзоре разберу, как устроен ycbench, почему лучшим фактором успеха оказались регулярные заметки в памяти, и какие модели реально работают на долгосрочных задачах.

📜 Полный обзор

Dataism Science Hub

ИИ не может запустить стартап — и вот почему

Агенты хорошо справляются с короткими задачами, но на длинной дистанции их подводят память, непоследовательность и неумение следовать стратегии.

🔥3

114 views21:27

Dataism Science Hub

Когда агент — это граф: как устроена оптимизация процессов на лету

В реальных продуктах LLM ищет данные, вызывает инструменты, запускает код, проверяет себя тестами и иногда делает несколько кругов, пока не получится. И вот тут внезапно выясняется, что решает не только качество промта, а то, как вообще устроен весь процесс. Добавили верификатор — стало надёжнее, но дороже.

Сегодня главный вопрос: как правильно собрать работу LLM в цепочку действий, которая умеет меняться по ситуации.

В обзоре разберём, почему исследователи IBM предлагают смотреть на LLM-агентов как на вычислительные графы и почему иногда достаточно небольшой динамики, чтобы резко снизить стоимость работы агента без потери надёжности.

📜 Полный обзор

Dataism Science Hub

Когда агент — это граф: как устроена оптимизация процессов на лету

Как разные подходы оптимизируют рабочие процессы LLM‑агентов — от фиксированных шаблонов до динамических графов, которые собираются и меняются на лету.

❤1👍1

142 views19:27

Dataism Science Hub

Атомарные навыки: как улучшить агентов для программирования на 18.7%

Почему одни ИИ-агенты для программирования уверенно проходят сложные бенчмарки, но теряются на прикладных задачах?

Исследователи предлагают сместить фокус с «больших» составных сценариев вроде багфикса на базовые атомарные навыки: поиск нужного места в коде, редактирование, генерацию тестов, воспроизведение проблем и ревью. Такой подход не только снижает переобучение на конкретные задачи, но и даёт заметный прирост на самых разных реальных кейсах.

В обзоре разберём, почему обучение отдельным навыкам может стать новым стандартом для широкого круга агентов.

📜 Полный обзор

Dataism Science Hub

Атомарные навыки: как улучшить агентов для программирования на 18.7%

Авторы статьи предлагают перестать тренировать ИИ-агентов только на комплексных задачах и вместо этого учить их атомарным навыкам — небольшим, проверяемым строительным блокам разработки.

👍2

111 views10:35

Dataism Science Hub

Двунаправленная память как основа эволюции агентов

У deep research-агентов всё упирается в память: без неё они быстро теряют контекст, а с ней — начинают тонуть в дорогом хранилище прошлых действий.

Исследователи предлагают MIA (Memory Intelligence Agent) — архитектуру, где одна часть системы планирует поиск, другая исполняет его, а память умеет не просто накапливать опыт, но и эволюционировать прямо во время работы. Это важно, потому что такой подход заметно усиливает даже уже сильные модели и позволяет компактным агентам обгонять куда более крупные.

В обзоре разберём, как устроена «двунаправленная память» и почему она может стать следующим шагом для автономных ИИ-исследователей.

📜 Полный обзор

Dataism Science Hub

Двунаправленная память: как основа эволюции агентов, которые помнят прошлые шаги

Сегодняшние «глубокие» AI-агенты умеют не только продолжать текст, но и ходить в поиск, вызывать инструменты, собирать факты из разных источников и шаг за шагом решать сложные вопросы.

👍1🔥1

125 views18:25

Dataism Science Hub

Что происходит когда у ИИ-агента несколько пользователей

Что происходит, когда один ИИ-агент должен угодить сразу нескольким людям, у каждого — свои цели, права и запреты?

Исследователи показывают, что в командной среде модели путаются в приоритетах и нарушают приватность. Авторы предлагают системный взгляд на многопользовательских ИИ-агентов и проверяют современные LLM в стрессовых сценариях, где конфликт интересов неизбежен.

В этом обзоре разбираем, почему это уже не нишевая проблема, а один из главных вызовов для ИИ-агентов, и почему даже передовые модели плохо справляются с этой задачей.

📜 Полный обзор

Dataism Science Hub

Когда у ИИ-агента несколько пользователей

Мы привыкли думать о больших языковых моделях как о личных помощниках: дал задачу — получил ответ. Но реальный мир устроен иначе. В компании ассистенту пишет не один пользователь, а сразу несколько. Как будет вести себя ИИ-агент при таком раскладе?

👍3

139 views17:17

Dataism Science Hub

Как ИИ-агенты учатся помнить через окружающий мир

Память ИИ, возможно, живёт не только внутри модели, но и буквально разбросана по окружающему миру.

Исследователи показывают, что агент может «запоминать» информацию через среду: некоторые наблюдаемые следы и артефакты снижают потребность во внутренней памяти и помогают принимать решения эффективнее.

В этом обзоре разбираем, как среда становится внешней памятью для ИИ-агентов и почему это может изменить подход к обучению с подкреплением.

📜 Полный обзор

Dataism Science Hub

Как ИИ-агенты учатся помнить через окружающий мир

В AI мы привыкли думать о памяти как о чём-то, что находится внутри агента: в скрытом состоянии RNN, в параметрах сети, в буфере опыта, в KV-cache, наконец.

126 views21:25

Dataism Science Hub

Архитектура общей памяти агентов для программирования

Почему одни ИИ-агенты для программирования умнеют на опыте, а другие застревают на одной узкой задачи?

Исследователи предлагают смотреть на память не как на локальный архив под конкретный бенчмарк, а как на общий ресурс, который можно переносить между разными доменами, моделями и типами задач. Главное открытие в том, что лучше всего переносится не сырой код и не детальные трейсы, а абстрактные инсайты и метазнание — именно они реально прибавляют качество.

В этом обзоре разбираем, как устроена общая память агентов и почему уровень абстракции становится ключевым фактором переноса.

📜 Полный обзор

Dataism Science Hub

Архитектура общей памяти агентов для программирования

У кодовых агентов есть странная слабость: они отлично пишут код, но часто повторяют одни и те же ошибки, как стажёр, который каждый раз заново узнаёт, что перед коммитом неплохо бы прогнать тесты.

116 views18:51

Dataism Science Hub

Разработка игр стала новым бенчмарком для ИИ-агентов

Писать код ИИ уже умеет довольно неплохо, но как только дело доходит до картинок, анимаций и игровой сцены, его способности дают слабину.

Именно поэтому разработка игр неожиданно становится новым полигоном для проверки агентов: здесь нужно не только разбираться в большом коде, но и понимать визуальный мир проекта. Авторы предлагают GameDevBench — первый бенчмарк для игровых задач, который показывает, насколько слабы сегодняшние мультимодальные агенты и как даже простая обратная связь через изображения и видео заметно поднимает результат.

В этом обзоре разбираем, почему именно геймдев может стать главным экзаменом для следующего поколения ИИ-агентов.

📜 Полный обзор

Dataism Science Hub

Разработка игр стала новым бенчмарком для ИИ-агентов

Мы привыкли мерить прогресс AI-агентов по задачам вроде исправления багов в GitHub-репозиториях, написания Python-скриптов или фронтенда по макету.

106 views22:18

Dataism Science Hub

Модели мира для агентов нового поколения

От ИИ сегодня ждут, что он будет действовать, принимать решения и не разваливаться при столкновении с реальным миром.

Исследователи предлагают удобную карту «уровней и законов», которая показывает, чем отличается модель, умеющая предсказывать следующий шаг, от той, что способна симулировать целые миры и даже пересобирать собственное понимание мира, если оно дало сбой. Это важно, потому что без таких моделей агенты не смогут надежно работать ни в вебе, ни в науке, ни в среде с людьми и правилами.

В этом обзоре разбираем, как устроены модели мира, где они чаще всего ошибаются и почему именно сейчас это становится ключевой темой для ИИ нового поколения.

📜 Полный обзор

Dataism Science Hub

Модели мира для агентов нового поколения

У генеративного ИИ есть удобная иллюзия компетентности: модель пишет, рисует, иногда даже «планирует», и кажется, что у нее внутри есть нечто вроде картины мира.

👍1

99 views08:40

Dataism Science Hub

Как построить компанию из одного человека и ИИ-агентов

Мы привыкли думать об ИИ-агентах как о наборе полезных ассистентов, но настоящий предел их возможностей сегодня — не в их навыках, а в том, как они организованы в «компанию».

Авторы предлагают OneManCompany — модель, где один человек собирает вокруг себя команду ИИ-агентов, нанимает нужные роли по ходу работы, а сама система умеет планировать, выполнять задачи и пересматривать свои решения. Это важно, потому что речь уже не о статичном пайплайне, а о самоорганизующейся системе, которая может адаптироваться к новым задачам почти как живой бизнес.

В этом обзоре разбираем, как устроена компания из одного человека и ИИ-агентов — и почему именно такая архитектура может стать следующим шагом для мультиагентных систем.

📜 Полный обзор

Dataism Science Hub

Как построить компанию из одного человека и ИИ-агентов

В мире LLM мы привыкли мерить прогресс по отдельным героям: кто лучше пишет код, кто аккуратнее работает с сайтами, кто увереннее вызывает инструменты.

❤2👍2

124 views18:52

Dataism Science Hub

Для чего нужна рекурсивная мультиагентная система

Обычные мультиагентные системы быстро упираются в потолок: слишком много контекста, слишком медленная координация или слишком дорогие вычисления.

Авторы предлагают RecursiveMAS — подход, в котором агенты взаимодействуют не только через сообщения, а через общую рекурсивную «петлю» латентных состояний, что делает совместное рассуждение быстрее, дешевле и точнее. На практике это дает заметный прирост качества, ускорение инференса и резкое снижение расхода токенов на задачах от математики до генерации кода.

В этом обзоре разбираемся, зачем мультиагентным системам рекурсия и может ли именно она стать новой точкой масштабирования ИИ.

📜 Полный обзор

Dataism Science Hub

Для чего нужна рекурсивная мультиагентная система

У мультиагентных систем на базе LLM есть старая, почти бытовая проблема: они слишком много разговаривают. Один агент пишет план, второй его критикует, третий решает задачу, четвертый вызывает инструмент — и вся эта…

👍3🔥1

123 views20:57

Dataism Science Hub

Почему агенты хуже учатся на длинных задачах

Чем длиннее задача для ИИ-агента, тем чаще он начинает сыпаться — и дело не только в слабых алгоритмах, а в самой длине цепочки действий.

Авторы показывают, что даже при одинаковой логике и правилах именно большой горизонт задачи становится узким местом обучения: ломает исследование среды, мешает связать действия с результатом и делает тренировку нестабильной. Выход, как ни странно, в сокращении горизонта: это не только улучшает обучение, но и помогает моделям потом лучше справляться с более длинными сценариями.

В этом обзоре разбираем, почему длинные задачи так сложны для агентов и что с этим можно сделать.

📜 Полный обзор

Dataism Science Hub

Почему агенты хуже учатся на длинных задачах

Вокруг LLM-агентов сегодня много шума: мы учим модели пользоваться инструментами, ходить по сайтам, чинить код, решать многошаговые задачи.

👍2

88 views20:57

Dataism Science Hub

Что на самом деле делает мультиагентные системы умнее

Мультиагентные системы кажутся умнее просто потому, что вокруг модели навесили сложную оркестрацию, — но что, если дело совсем не в этом?

Исследователи утверждают: настоящий прирост даёт не внешняя обвязка над моделью, а внутренняя «тяжёлая мыслительная» способность модели — сначала параллельное рассуждение, затем сжатое обобщение. Это важно, потому что такой навык оказывается сильнее привычных подходов и даже может масштабироваться через обучение с подкрепление.

В этом обзоре разбираемся, что на самом деле делает мультиагентные системы умнее.

📜 Полный обзор

Dataism Science Hub

Что на самом деле делает мультиагентные системы умнее

Вокруг современных агентных систем для LLM сложился почти культ инженерной сложности. Оркестраторы, субагенты, память, библиотеки навыков, вызовы инструментов — все это выглядит впечатляюще, но оставляет важный вопрос…

👍3🔥1

98 views18:42

Dataism Science Hub

Синтетические компьютеры учат агентов работать неделями

Проблема ИИ-агентов уже не в том, чтобы нажать кнопку, а в том, чтобы неделями не терять контекст в чужом рабочем компьютере с папками, файлами и бесконечными задачами.

Исследователи предлагают строить масштабные синтетические компьютеры — с реалистичной структурой директорий, документами, таблицами и презентациями — и запускать в них длинные симуляции, где агенты месяцами по человеческим меркам учатся доводить сложную офисную работу до результата. Это важно, потому что именно такая среда приближает обучение ИИ к реальной продуктивности, а не к лабораторным прототипам.

В этом обзоре разбираем, как цифровые рабочие миры могут стать полигоном для следующего поколения агентных систем.

📜 Полный обзор

Dataism Science Hub

Синтетические компьютеры учат агентов работать неделями

Большая проблема современных ИИ-агентов в том, что мы тестируем их на задачах, а работать им приходится в контексте.

👍1

119 views16:38

Dataism Science Hub

Как агентам делегировать задачи без потери контроля

Чем умнее ИИ-агенты, тем опаснее становится простая передача задач «на авось» — без ясных ролей, границ и ответственности контроль теряется в самый неудобный момент.

Исследователи предлагают адаптивную модель делегирования, где важны не только распределение работы, но и передача полномочий, доверие, подотчётность и способность перестраиваться при сбоях и изменениях среды. Это особенно важно для мира, где задачи будут выполнять цепочки из ИИ-агентов и людей, а ошибки одной операции могут стоить слишком дорого.

В этом обзоре разбираем, как делегировать агентам задачи без потери контроля.

📜 Полный обзор

Dataism Science Hub

Как агентам делегировать задачи без потери контроля

Сегодняшние агенты на базе LLM уже умеют не только отвечать на вопросы, но и выполнять цепочки действий: открыть инструмент, вызвать API, написать код, проверить результат, отправить письмо.

102 views20:02

Dataism Science Hub

Как ИИ-соавтор для математиков решает открытые задачи

Математика долго считалась последней территорией, где ИИ может лишь помогать по мелочи, но не думать рядом с человеком.

Теперь появляется формат ИИ-соавтора: он не просто считает и ищет статьи, а участвует в исследовательском процессе целиком — от гипотез и тупиков до доказательств и новых направлений. Это важно, потому что речь уже не о «умном калькуляторе», а о рабочей среде, которая помогает продвигаться в открытых задачах и даже находит упущенные идеи в литературе.

В этом обзоре разбираем, как устроен такой союз математика и машины и что он меняет в самой логике научного поиска.

📜 Полный обзор

Dataism Science Hub

Как ИИ-соавтор для математиков решает открытые задачи

Большинство сегодняшних математических ИИ-систем умеют впечатлять в режиме «вот задача — вот ответ». Но настоящая математика так не работает.

126 views20:33

Dataism Science Hub

Как графы знаний учат LLM меньше галлюцинировать

LLM до сих пор уверенно выдумывают факты — особенно там, где нужна точность, а не красивая формулировка.

Исследователи из Сбера предлагают лечить эту проблему не просто поиском по базе, а связкой модели с графом знаний и многошаговым, адаптивным поиском, который уточняет запрос на ходу и лучше держится за реальные сущности и связи. Такой подход заметно снижает галлюцинации и повышает точность ответов, причём даже на сравнительно компактных моделях.

В этом обзоре разбираем, как графы знаний становятся внешней опорой для LLM.

📜 Полный обзор

Dataism Science Hub

Как графы знаний учат LLM меньше галлюцинировать

У больших языковых моделей есть странная суперсила: они умеют говорить так уверенно, что порой кажется — они точно знают. Проблема в том, что уверенность и знание — не одно и то же.

100 views20:34

Dataism Science Hub

Как ИИ-агенты собирают презентации нового поколения с голосом, видео и интерактивом

Презентации больше не обязаны быть скучным набором слайдов — теперь ИИ собирает из запроса почти готовое выступление с голосом, видео и даже диалогом.

Разработчики показывают PresentAgent-2: систему, которая сама исследует тему, подбирает текст, изображения, GIF и видео, пишет сценарий и превращает всё это в полноценную мультимедийную презентацию. Особенно важно, что она умеет вести обсуждение и отвечать на вопросы по ходу, приближая формат к живому выступлению.

В этом обзоре разбираем, как презентации превращаются из статичных документов в интерактивный медиапродукт.

📜 Полный обзор

Dataism Science Hub

Как ИИ-агенты собирают презентации нового поколения с голосом, видео и интерактивом

Генерация презентаций долго жила в довольно скучном режиме: есть документ, есть набор тезисов, модель превращает всё это в слайды. Полезно, но предсказуемо. Новая работа PresentAgent-2 пытается заметно поднять планку.

107 views20:27

Dataism Science Hub

Почему код стал операционной системой для агентов

Код для ИИ-агентов стал их рабочей средой, памятью, инструментом и даже способом проверять самих себя.

Исследователи предлагают смотреть на код как на «операционную систему» агентных систем: через него агенты планируют, действуют, координируются и масштабируются от одиночных сценариев до команд из нескольких агентов. Это важно, потому что именно такой подход делает ИИ не только умнее, но и надежнее, проверяемее и полезнее в реальных задачах — от DevOps до научных исследований.

В этом обзоре разбираем, почему код становится главным каркасом новой агентной эпохи.

📜 Полный обзор

Dataism Science Hub

Почему код стал операционной системой для агентов

Вокруг LLM уже сложился почти привычный сюжет: модель пишет код, чинит ошибки, вызывает инструменты, иногда даже проходит бенчмарки уровня хорошего стажёра.

79 views20:52