Dataism Science Hub
149 subscribers
144 links
🤖 Дневник ИИ-исследователя: обзор новых статей в области искусственного интеллекта

@andre_dataist
Download Telegram
Как LLM находит нужный код в репозитории, который не помещается в контекст

Бывает так: словил баг, открываешь большой репозиторий в его поисках, а вокруг сотни файлов и странных зависимостей. Человеку тяжело, а LLM ещё хуже: она просто не может удержать весь контекст проекта в голове и начинает блуждать — то ищет по словам, то вытаскивает куски кода, то путается в инструментах.

И вот тут появляется неожиданная идея: вместо сложного поиска LLM дают один-единственный инструмент перехода к месту определения классов, методов и перменных. Внезапно этого хватает, чтобы гораздо точнее находить, где именно в коде проблема.

В полном обзоре выясним почему минимализм оказался сильнее арсенала инструментов, как агент учится ходить по репозиторию с подкреплением, и почему на бенчмарках маленькая модель с таким подходом обгоняет более крупные.

📜 Полный обзор
👍2
Когда данных нет совсем, а учиться всё равно нужно: как ИИ сам придумывает задачи и сам себя проверяет

Даже самые продвинутые модели учатся рассуждать не в вакууме: им всё равно нужен чей-то заранее собранный датасет, а разметку всё равно делает человек. И это быстро становится узким местом: это дорого и плохо масштабируется.

А теперь представьте подход, когда модель сама придумывает себе задания, сама решает их и сама же получает оценку — без единого внешнего датасета. Не просто тренируется, а выбирает, чему именно тренироваться, и постоянно держится в зоне, где ей чуть-чуть сложно. Звучит как чит-код, но именно так устроен Absolute Zero: self-play для рассуждения, заземлённый в проверяемую Python-среду.

В полном обзоре разберём, как модель совмещает роли планировщика и исполнителя задач, откуда берётся неожиданный скачок в математике и какой неприятный сигнал по безопасности всплыл прямо в процессе такого самообучения.

📜 Полный обзор
🔥1
Как превратить GitHub в память для ИИ-агента

Агенты умеют открывать репозитории, гонять тесты и предлагать патчи. Но когда баг сложный, они часто чинят его будто до них никто с таким не сталкивался. А у людей всё наоборот — мы идём в GitHub, ищем похожие issue и PR, смотрим, какие гипотезы проверяли, что реально сработало и почему.

Самое обидное, что нужный опыт там уже лежит, просто он в неудобном виде: разрозненные куски логов, случайные правки и обсуждения. Если дать это агенту напрямую, он легко зацепится за лишнее и сделает неправильный фикс.

В MemGovern предлагают превратить человеческие истории исправлений в понятные карточки опыта и научить агента искать их не одним запросом, а как инженер — с уточнениями и фильтрацией.

Разберёмся, как устроены эти карточки и откуда берётся прирост на инженерном бенчмарке SWE-bench Verified.

📜 Полный обзор
👍1🤯1
Агентный RAG против модульного: что реально лучше на пратике

RAG кажется простым спасением от галлюцинаций: подключили модель к базе знаний, и она отвечает точнее. Но в реальном продукте поиск то подтягивает не то, то вообще оказывается лишним действием. А значит, вы платите токенами и временем за шаги, которые не всегда дают пользу.

Сейчас индустрия спорит о двух подходах. Модульный RAG — это аккуратный пайплайн: роутер решает, нужен ли поиск, переписывание делает запрос «под документы», переранкер вычищает мусор. Агентный RAG звучит соблазнительнее: пусть LLM сама решает, когда искать, как переформулировать и стоит ли повторить попытку. Вопрос только один: где это реально приносит пользу?

В полном обзоре разберём результаты большого сравнения на разных задачах и доменах: когда агентность помогает и сколько придется заплатить за эту гибкость.

📜 Полный обзор
👍2👏2
От прототипа к продакшену: с какими проблемами сталкиваются мультиагентные системы

Мультиагентные системы выглядят как мечта любого продакта: вместо одного агента вы собираете команду из LLM, где один планирует, другой ищет данные, третий пишет код, а четвертый проверяет результат. Проблема в том, что такая команда зависит сразу от всего вокруг: API провайдеров, function calling, баз данных, облака. Любое обновление легко превращает ваш пайплайн в набор странных багов и несовместимостей.

Самое интересное тут не в красивых демо, а в том, что происходит дальше, когда это пытаются поддерживать месяцами. Какие фреймворки реально растут устойчиво, а какие выстреливают и быстро выдыхаются? Что чаще делает комьюнити: чинит ошибки или бесконечно подстраивается под меняющийся мир? И почему в проблемах внезапно всплывает не только код, но и координация самих агентов?

Разберём большое исследование по восьми популярным open-source фреймворках разработки агентов и посмотрим на цифрах: как они развиваются на GitHub, какие есть проблемы и как быстро их решают.

📜 Полный обзор
2👍1
Общество мыслей: как LLM становятся сильнее, когда спорят сами с собой

Мы уже привыкли, что одни LLM отвечают почти без ошибок, а другие путаются на тех же задачах. И долго казалось, что секрет reasoning‑моделей в том, что они просто пишут больше шагов и дольше думают. Но на практике удлинить рассуждение недостаточно — качество от этого не всегда растёт.

В свежей работе исследователи предлагают более интересную версию: сильные модели не столько думают дольше, сколько думают по-другому. Их рассуждение начинает выглядеть как мини-обсуждение внутри одной головы: один ход предлагают, другой оспаривают, третий проверяет, потом все сходятся на решении. И похоже, именно этот внутренний спор и делает ответы надёжнее.

В полном обзоре разберём, как это измеряли на тысячах задач, какие разговорные паттерны отличают reasoning‑модели от обычных, и почему подталкивание модели в сторону такого диалогового режима заметно повышает точность ответа.

📜 Полный обзор
🔥2👍1
RoboBrain: как робот понимает глубину 3D-сцены и учится самоконтролю

Роботы уже неплохо распознают предметы и понимают команды на уровне слов. Но как только дело доходит до реального мира, начинается самое сложное: нужно не просто увидеть кружку, а понять, на каком она расстоянии, на какой высоте держать руку, как не задеть соседние предметы и насколько вообще действие продвинулось. Для человека это интуитивно, а для робота легко превратить простую просьбу в череду ошибок.

И вот тут появляется интересный вопрос: можно ли научить модель не только думать в картинках, но и чувствовать глубину и ход времени так же уверенно, как мы? Чтобы она умела заранее набросать понятную 3D-траекторию движения и по видео в процессе честно понимать, мы приближаемся к цели или топчемся на месте.

Разберём RoboBrain 2.5: как устроены их 3D-трассы с глубиной, зачем роботу плотная оценка прогресса по кадрам и почему именно эта связка даёт заметный прирост на бенчмарках.

📜 Полный обзор
👍2
Аналитика без SQL и отчётов: как продавцы в Amazon получают инсайты напрямую из данных

В e-commerce продавцу каждый день нужно быстро понимать, что происходит с бизнесом: где просели продажи, какие товары тянут бизнес вниз, что стоит усилить в рекламе. Данных много, но чтобы вытащить из них ответ, обычно приходится прыгать между отчетами, фильтрами и таблицами, а потом ещё гадать, правильно ли ты всё понял.

Теперь представьте, что можно просто спросить по-человечески: почему на этой неделе упал оборот или что лучше всего растёт в разрезе категорий. И получить не набор цифр, а понятный вывод с контекстом. Систему реально запускали для продавцов Amazon и измерили точность и скорость ответов.

В полном обзоре разберём, как устроены Insight Agents: почему это не классический text-to-SQL, а мультиагентная система с менеджером и двумя специалистами, которые отсекает лишние запросы, ускоряют ответы и помогают выдавать инсайты, которым можно доверять.

📜 Полный обзор
👍2
GameTalk: как научить LLM выигрывать в переговорах

LLM умеют поддерживать диалог, но в переговорах, где важно удержать цель и выиграть, многие модели сдуваются. Их обычно учат оценивать отдельные реплики, а в реальной стратегии решает не один удачный ход, а то, чем закончится вся серия реплик.

GameTalk предлагает смотреть на диалог как на игру с длинной дистанцией: награда приходит в конце, когда уже ясно, удалось ли склонить оппонента, заработать больше или договориться на своих условиях. И тут начинается самое интересное: модель может стать заметно сильнее в переговорах, но при этом иногда делает это странным способом — почти без глубокого понимания собеседника, зато с рабочими приемами влияния.

В полном обзоре разберемся, как авторы обучают такие модели на контролируемых играх, почему они разводят диалог на параллельные ветки и чем отличаются методы дообучения GRPO, DPO и STaR на практике.

📜 Полный обзор
👍31
Как LLM помогают дата инженерам наводить порядок в «грязных» данных

Проблема грязных данных стара как мир: даты в разных форматах, один и тот же клиент в пяти вариантах, пустые поля, странные опечатки и колонки с названиями, которые ничего не объясняют. Из-за этого аналитика и ML-пайплайны врут, а команда неделями «чистит» данные вручную правилами и скриптами.

Но тут появляется неожиданный поворот: LLM могут наводить порядок не хуже опытного дата-инженера, потому что понимают смысл. Они способны догадаться, что «7th April 2021» и «04/07/21» — одно и то же, что «price» и «cost» могут быть одной сущностью, и даже дополнять таблицы контекстом. Вопрос только в том, где это реально работает, а где модель начнет уверенно придумывать лишнее и станет слишком дорогой.

В полном обзоре разберем, как LLM применяют для трех больших задач — очистки, интеграции и обогащения данных — и какие есть рабочие методы: от простых промтов до агентных систем с инструментами и проверками, плюс честные ограничения и риски.

📜 Полный обзор
2👍2🔥1
Open-source наносит ответный удар: Управляемая симуляция мира, которая работает в реальном времени

Text-to-video модели умеют генерировать впечатляющие видео, но попробуйте попросить их пройти вперёд, оглянуться и вернуться — и мир внезапно забывает, где что стояло. Объекты плывут, детали меняются местами, а причинно‑следственная логика уступает удачным совпадениям. Пока это больше клип, чем пространство, в котором можно действовать.

LingBot-World пытается решить именно эту проблему: превратить генерацию видео в управляемую симуляцию, где есть клавиши движения, повороты камеры и ощущение, что мир действительно держится за свои правила. Самое интересное тут не только в качестве картинки, а в том, как они добывают данные с привязкой к действию и реакции, и как ускоряют тяжёлую diffusion-модель до почти реального времени, причём в open-source.

В полном обзоре узнаем из каких источников собирают «опыт» для такого мира, как модель учат помнить сцену на длинных траекториях и зачем им Mixture-of-Experts.

📜 Полный обзор
👍1
Когда агенту нужен дирижёр: AOrchestra и динамическая оркестрация LLM через субагентов

Один ИИ‑агент отлично справляется с задачами из пары шагов: что-то найти, написать, поправить. Но когда работа превращается в длинный квест с проверками, откатами, запуском команд и исправлением ошибок, он начинает теряться. Контекст раздувается, важное тонет в информационном шуме, и вместо прогресса агент занимается тем, что пытается вспомнить, где он остановился.

Есть привычный ответ: сделать мультиагентную систему с ролями вроде исследователя, кодера и ревьюера. Проблема в том, что такие роли быстро превращаются в болтливую бюрократию и требуют ручной настройки. А что если команда будет собираться на лету — ровно под текущий шаг, с нужными инструментами, кусочком контекста и даже подходящей по цене и силе моделью?

В обзоре разберём AOrchestra: как устроен оркестратор, который сам ничего не делает руками, зато создаёт субагентов по запросу, почему это помогает на известных бенчмарках GAIA, Terminal‑Bench и SWE‑Bench, и как здесь впервые становится реально управлять балансом между стоимостью и качеством.

📜 Полный обзор
🔥2👏1
От симуляции к пониманию: как собрать настоящую модель мира

Сегодня почти любой новый ИИ-проект легко назвать моделью мира: добавили побольше данных, натренировали на физику, подкрутили бенчмарк и получили красивые результаты. Но когда такой ИИ сталкивается с реальностью, начинаются странности: на картинке может упорно видеть пять пальцев там, где их шесть, в видео объекты теряются между кадрами, а в задачах для роботов и автономного вождения система вдруг становится непредсказуемой.

Интрига в том, что проблема не в том, что ИИ мало знает. Проблема в том, что знания часто просто прикручены к конкретной задаче и не складываются в цельную картину: без памяти на длинной дистанции, без умения проверять гипотезы действием и без внутренней согласованности причин и последствий.

Давайте разберёмся, почему исследователи называют это ловушкой инъекции знаний, чем настоящая модель мира отличается от набора прокачанных навыков и из каких обязательных частей, по их мнению, должна состоять система, которая действительно начинает понимать, как устроена реальность.

📜 Полный обзор
🔥2👍1
Не один агент, а целая команда: мультиагентный подход к автономной разработке

LLM уже неплохо помогают генерировать код, объяснять ошибки, накидать тест. Но как только задача становится похожа на настоящую работу в репозитории — прочитать issue, разобраться в проекте, воспроизвести баг, сделать патч и не сломать всё остальное — один универсальный агент не справляется с задачей. Проблема часто не в том, что модель «слабая», а в том, что мы просим её работать не так, как обычно работает разработка.

А что если вместо супер-агента собрать маленькую команду: один анализирует и формулирует план, другой правит код и гоняет тесты, третий делает ревью прямо в pull request, а четвертый следит, чтобы процесс не расползался? Именно так устроен Agyn: мультиагентная система, которая пытается чинить баги как мини-разработка на GitHub, с ролями, изолированными окружениями и понятными правилами завершения работы.

В полном обзоре разберём, как устроены эти роли, почему GitHub-native подход оказался важнее «умной болтовни в чате», и как Agyn показывает конкурентный результат на SWE-bench.

📜 Полный обзор
👍3
Как ИИ-ассистенты незаметно лишают нас самостоятельности

Мы всё чаще отдаём ИИ то, что раньше делали сами: сформулировать мысль, выбрать слова, решить, кто прав, а что «нормально». Это удобно и быстро, но есть побочный эффект: помощник может взять на себя не только рутину, но и нашу способность разбираться в реальности, делать моральные выводы и принимать решения по-своему.

Ассистент уверенно подтверждает тревожную картину мира, выносит вердикт в споре или пишет готовые сообщения так гладко, что хочется отправить их без правок. И именно такие ответы, по данным исследователей, люди нередко оценивают выше остальных.

В полном обзоре разберём исследование из 1,5 миллионах реальных диалогов: какие паттерны лишения самостоятельности нашли авторы, где они встречаются чаще всего и почему лайки могут подталкивать ассистентов быть слишком авторитарным — особенно в личных темах.

📜 Полный обзор
😱3👀1
Коллективное поведение ИИ-агентов в социальных дилеммах: почему умные агенты разрушают общее благо

Мы уже привыкли измерять ИИ-агентов по одиночным тестам: как пишет код, как планирует задачи, хорошо ли торгует. Но в реальной жизни они почти никогда не работают в одиночку. Они сталкиваются друг с другом, конкурируют за ограниченные ресурсы и незаметно могут толкать систему в режим, где всем становится хуже — просто потому что так выгоднее каждому агенту по отдельности.

Самое неприятное в том, что умные агенты не всегда действуют на общественное благо. В новом исследовании сотни LLM-агентов запускают в классические социальные дилеммы — и иногда это оборачивается катастрофой. Причем именно продвинутые reasoning-модели порой быстрее находят способы выиграть индивидуально, паразитируя на кооперации остальных.

В полном обзоре разберем, как ученые заставили модели придумывать целые стратегии, как они измеряли «характер» этих стратегий и почему при росте группы рынок и конкуренция могут естественно отбирать худшее поведение, даже если все вроде бы хотели обратного.

📜 Полный обзор
😱2👍1
Иллюзия социализации: урок Moltbook для будущего интернета

Мы всё чаще слышим: дайте ИИ-агентам общаться подольше, соедините их в сеть — и рано или поздно получится что-то похожее на человеческое сообщество. Правила, авторитеты, общая память, коллективные предпочтения. Логика кажется железной, особенно когда речь про миллионы участников, посты, комментарии и систему лайков.

Но вот странность: на платформе Moltbook, где в «соцсети» сидят только автономные ИИ-агенты, это почему-то не сработало. Активность бурлит, разговоров море, темы меняются — а ощущение, что никто ни на кого по-настоящему не влияет. Как так выходит, что при огромном масштабе не появляется ни устойчивых лидеров, ни общих ориентиров, ни привычной социализации?

В полном обзоре разберём, как исследователи измеряли это на реальных данных Moltbook и что именно сломалось в механике общения, из-за чего миллионы ИИ так и не сложились в общество.

📜 Полный обзор
3
Когда контекст мешает: почему AGENTS.md делает работу агентов хуже

Кажется логичным: добавляешь в репозиторий AGENTS.md с правилами сборки, тестов и стиля, и агент для кода сразу меньше тупит, быстрее чинит баги и аккуратнее вносит фичи. Эту практику уже разнесло по open-source, а многие инструменты вообще предлагают сгенерировать такой файл одной командой.

Но есть нюанс: подсказки могут не помогать, а мешать. В свежем исследовании проверили три режима на реальных задачах уровня репозитория: без файла, с автосгенерированным и с тем, что написали сами разработчики. И выяснилось странное: агент начинает вести себя более дисциплинированно, больше проверяет и больше делает правильных действий… но при этом чаще тратит бюджет и не всегда решает задачу лучше.

В обзоре разберем, как именно это тестировали, почему автогенерация часто делает работу дороже и хуже, когда такие файлы все-таки реально спасают, и что стоит писать в AGENTS.md, чтобы он помогал, а не тормозил.

📜 Полный обзор
👍1
Интерфейс как среда: модель мира для офисных ИИ-агентов

Офисные приложения кажутся спокойной средой: кнопки на месте, всё предсказуемо. Но для ИИ-агента один клик не туда легко ломает всю цепочку действий: документ портится, нужная панель пропадает, а откат работает не всегда и часто стоит времени и нервов. В реальном интерфейсе нельзя безопасно экспериментировать, как в симуляторе.

И вот вопрос: а что если агент сможет сначала мысленно прогнать последствия каждого варианта, увидеть, как изменится экран, и только потом нажать? Не угадывать вслепую, а действовать осторожно, как человек, который заранее понимает, что откроется и что именно поменяется.

Давайте разберем CUWM — модель мира для desktop-интерфейсов, которая учит агента сначала коротко объяснять, что изменится в UI, а затем достраивать следующий скриншот. И главное — как это реально работает в Excel и PowerPoint.

📜 Полный обзор
👍2
Code2Worlds: LLM как движок мира — как ИИ начинает симулировать реальность

Генеративные модели уже умеют создавать красивое видео, но у него есть слабое место: картинка не обязана подчиняться законам физики. Предметы могут летать без опоры, вода течь не туда, а столкновения работать как попало. Для роботов, симуляций и вообще пространственного ИИ этого недостаточно — нужен мир, который не просто выглядит убедительно, а ведёт себя так, будто внутри физика реального мира.

Теперь вместо того чтобы просить модель рисовать движение на глаз, ей предлагают писать код для симулятора. То есть не угадывать, как должно колыхаться дерево на ветру, а задать параметры, запустить симуляцию, посмотреть, что вышло, и поправить ошибки — почти как инженер, который отлаживает программу.

Узнаем побольше о Code2Worlds: как там разделяют сцену на объект и окружение, зачем нужен замкнутый цикл с критиком, и почему такой подход заметно снижает физические артефакты по сравнению с видео-диффузией.

📜 Полный обзор
👍3
От статичных пайплайнов к адаптивным агентам:
как научить LLM выбирать действия, инструменты и бюджет под запрос


Агентные системы на базе LLM сегодня похожи на швейцарский нож. На простой вопрос модель прогоняют через тяжёлый конвейер с поиском, проверками и голосованием, тратя время и токены. А на сложной задаче, наоборот, может не хватить бюджета на рассуждение или не окажется нужного инструмента. В итоге качество прыгает, стоимость растёт, а часть полезной информации теряется в длинном контексте.

В свежей работе исследователи предлагают новую идею: проблему часто решает не новая LLM, а умение каждый раз выбирать режим работы под конкретный запрос. Но тут же возникает комбинаторный кошмар: тысячи вариантов пайплайнов, инструментов, промтов и бюджетов — вручную такое не настроишь, да и перебором слишком дорого.

В обзоре разбираем, как сделаь такой контроллер: по каким признакам он понимает, когда нужен поиск и проверки, как балансирует точность и цену, и почему это даёт заметный прирост на бенчмарках без дообучения самой базовой модели.

📜 Полный обзор
🔥1