Про важность обвязки (харнеса) и прогрессирующую экстернализацию у LLM агентов.
Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering
Chenyu Zhou, Huacan Chai, Wenteng Chen, Zihan Guo, Rong Shan, Yuanyi Song, Tianyi Xu, Yingxuan Yang, Aofan Yu, Weiming Zhang, Congming Zheng, Jiachen Zhu, Zeyu Zheng, Zhuosheng Zhang, Xingyu Lou, Changwang Zhang, Zhihui Fu, Jun Wang, Weiwen Liu, Jianghao Lin, Weinan Zhang
Paper: https://arxiv.org/abs/2604.08224
Review: https://arxiviq.substack.com/p/externalization-in-llm-agents-a-unified
Code: N/A
Model: N/A
# TL;DR
Что сделали: Сформулировали системный подход, который объясняет развитие ИИ-агентов на базе больших языковых моделей (LLM — алгоритмов, предсказывающих следующее слово в тексте) не через увеличение нейросетей, а через вынос когнитивных задач во внешнюю инфраструктуру — память, готовые наборы навыков и протоколы взаимодействия под управлением специальной программной «обвязки» (harness).
Почему это важно: Попытки заставить модель решать сложные многошаговые задачи только за счёт её внутренних весов и длинных, хрупких текстовых запросов (промптов) часто приводят к ошибкам. Перенос этих функций во внешнюю среду делает ИИ-системы безопаснее, предсказуемее и проще в аудите без необходимости постоянно переобучать саму модель.
Экстернализировать тут: https://tg-me.sbs/gonzo_ML_podcasts/3878
Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering
Chenyu Zhou, Huacan Chai, Wenteng Chen, Zihan Guo, Rong Shan, Yuanyi Song, Tianyi Xu, Yingxuan Yang, Aofan Yu, Weiming Zhang, Congming Zheng, Jiachen Zhu, Zeyu Zheng, Zhuosheng Zhang, Xingyu Lou, Changwang Zhang, Zhihui Fu, Jun Wang, Weiwen Liu, Jianghao Lin, Weinan Zhang
Paper: https://arxiv.org/abs/2604.08224
Review: https://arxiviq.substack.com/p/externalization-in-llm-agents-a-unified
Code: N/A
Model: N/A
# TL;DR
Что сделали: Сформулировали системный подход, который объясняет развитие ИИ-агентов на базе больших языковых моделей (LLM — алгоритмов, предсказывающих следующее слово в тексте) не через увеличение нейросетей, а через вынос когнитивных задач во внешнюю инфраструктуру — память, готовые наборы навыков и протоколы взаимодействия под управлением специальной программной «обвязки» (harness).
Почему это важно: Попытки заставить модель решать сложные многошаговые задачи только за счёт её внутренних весов и длинных, хрупких текстовых запросов (промптов) часто приводят к ошибкам. Перенос этих функций во внешнюю среду делает ИИ-системы безопаснее, предсказуемее и проще в аудите без необходимости постоянно переобучать саму модель.
Экстернализировать тут: https://tg-me.sbs/gonzo_ML_podcasts/3878
arXiv.org
Externalization in LLM Agents: A Unified Review of Memory, Skills,...
Large language model (LLM) agents are increasingly built less by changing model weights than by reorganizing the runtime around them. Capabilities that earlier systems expected the model to...
👍10😴2❤1👏1
Ян и Рэндал продолжают копать свои темы про JEPA и доказали интересную штуку про латенты такой модели — они с точностью до поворота восстанавливают истинные латенты мира. И в этом пространстве можно хорошо планировать. В математику пока глубоко не погружался, но выглядит интересно.
When Does LeJEPA Learn a World Model?
David Klindt, Yann LeCun, Randall Balestriero
Paper: https://arxiv.org/abs/2605.26379v1
Code: https://github.com/klindtlab/lejepa-identifiability
Review: https://arxiviq.substack.com/p/when-does-lejepa-learn-a-world-model
Model: N/A
# TL;DR
ЧТО сделали: Авторы представляют первое строгое математическое доказательство линейной идентифицируемости для архитектур Joint-Embedding Predictive Architectures (JEPA). Они доказали, что LeJEPA (https://tg-me.sbs/gonzo_ML/4212) (сочетающая лосс выравнивания с изотропной гауссовской регуляризацией) линейно восстанавливает истинные латентные переменные порождающего мира из сложных нелинейных наблюдений с точностью до ортогонального поворота. Важно, что они определили: в широком классе стационарных сред с аддитивным шумом гауссовское распределение — единственное, которое гарантирует такое точное восстановление.
ПОЧЕМУ это важно: В области нелинейного обучения представлениям и обучения без учителя (нелинейный ICA) гауссовское распределение исторически считалось единственным случаем, когда разделение источников (source separation) полностью ломается. Эта работа переворачивает данный нарратив, доказывая, что именно гауссовское распределение позволяет одновременно и стабильно извлекать все латентные размерности в больших масштабах. Более того, авторы доказывают, что такой линейной ортогональной идентифицируемости теоретически достаточно для оптимального планирования прямо в выученном латентном пространстве. Это закладывает строгий теоретический фундамент для создания доказуемо корректных моделей мира в робототехнике и обучении с подкреплением.
Для практиков: Результаты показывают, что использование простой гауссовской регуляризации (SIGReg) в моделях типа LeJEPA гарантирует, что выученные фичи не будут случайно запутаны или искажены нелинейностями. Это позволяет использовать стандартные алгоритмы управления (например, Linear-Quadratic Regulator) непосредственно поверх предобученного энкодера без необходимости сложной ручной калибровки. Наличие BatchNorm критично для стабильности: без него более трети запусков глубоких сетей коллапсируют.
Подробности тут: https://tg-me.sbs/gonzo_ML_podcasts/3891
When Does LeJEPA Learn a World Model?
David Klindt, Yann LeCun, Randall Balestriero
Paper: https://arxiv.org/abs/2605.26379v1
Code: https://github.com/klindtlab/lejepa-identifiability
Review: https://arxiviq.substack.com/p/when-does-lejepa-learn-a-world-model
Model: N/A
# TL;DR
ЧТО сделали: Авторы представляют первое строгое математическое доказательство линейной идентифицируемости для архитектур Joint-Embedding Predictive Architectures (JEPA). Они доказали, что LeJEPA (https://tg-me.sbs/gonzo_ML/4212) (сочетающая лосс выравнивания с изотропной гауссовской регуляризацией) линейно восстанавливает истинные латентные переменные порождающего мира из сложных нелинейных наблюдений с точностью до ортогонального поворота. Важно, что они определили: в широком классе стационарных сред с аддитивным шумом гауссовское распределение — единственное, которое гарантирует такое точное восстановление.
ПОЧЕМУ это важно: В области нелинейного обучения представлениям и обучения без учителя (нелинейный ICA) гауссовское распределение исторически считалось единственным случаем, когда разделение источников (source separation) полностью ломается. Эта работа переворачивает данный нарратив, доказывая, что именно гауссовское распределение позволяет одновременно и стабильно извлекать все латентные размерности в больших масштабах. Более того, авторы доказывают, что такой линейной ортогональной идентифицируемости теоретически достаточно для оптимального планирования прямо в выученном латентном пространстве. Это закладывает строгий теоретический фундамент для создания доказуемо корректных моделей мира в робототехнике и обучении с подкреплением.
Для практиков: Результаты показывают, что использование простой гауссовской регуляризации (SIGReg) в моделях типа LeJEPA гарантирует, что выученные фичи не будут случайно запутаны или искажены нелинейностями. Это позволяет использовать стандартные алгоритмы управления (например, Linear-Quadratic Regulator) непосредственно поверх предобученного энкодера без необходимости сложной ручной калибровки. Наличие BatchNorm критично для стабильности: без него более трети запусков глубоких сетей коллапсируют.
Подробности тут: https://tg-me.sbs/gonzo_ML_podcasts/3891
arXiv.org
When Does LeJEPA Learn a World Model?
A representation that scrambles the true degrees of freedom of the world cannot support reliable planning or compositional generalization. We prove that LeJEPA (alignment plus Gaussian...
👏9👍5❤1
Прикольная работа про то, как выжать больше из ограниченных имеющихся данных и неограниченного компьюта. Другая похожая была в прошлом году (https://tg-me.sbs/gonzo_ML/4038). Тоже ансамбли с дистилляцией, но хитрые.
Отдельно прикольная хитрая эвристика, гениальная в своей простоте, это циклическое изменение learning rate и weight decay в противофазе — с высоким lr исследуем, с высоким wd обобщаем. Я раньше этот подход не встречал, но он ведь супер логичен. Видели его где-нибудь?
q0: Primitives for Hyper-Epoch Pretraining
Bishwas Mandal, Shmuel Berman, Akshay Vegesna, Samip Dahal
Paper: https://arxiv.org/abs/2606.03938
Review: https://arxiviq.substack.com/p/q0-primitives-for-hyper-epoch-pretraining
Code: https://github.com/qlabs-eng/slowrun
# TL;DR
ЧТО сделали: Авторы представили q0 — фреймворк для сверхмногоэпохового предобучения, разработанный для оптимизации распределения вычислительных ресурсов в условиях дефицита данных. Вместо многократного обучения одной модели на фиксированном датасете после точки насыщения, q0 использует параллельное циклическое расписание, последовательную дистилляцию (chain distillation) и выученное априорное распределение обобщения (generalization prior) для создания и объединения пула разнообразных, дополняющих друг друга моделей.
ПОЧЕМУ это важно: По мере истощения качественных текстов в интернете, масштабирование базовых моделей упирается в нехватку данных, а обычное многоэпоховое обучение быстро выходит на плато. Рассматривая предобучение как исследование пространства гипотез множеством моделей, а не как бесконечную полировку одной сети, q0 повышает эффективность использования данных при предобучении до 12.9 раз, а на бенчмарках — до 16.0 раз. Это позволяет эффективно обменивать дополнительные вычисления на инференсе на экономию объёма сырых данных.
Для практиков: Если перед вами стоит задача обучить модель на ограниченном или специализированном датасете, но у вас есть свободные GPU-мощности, q0 предлагает готовую стратегию параллельного обучения ансамблей с умным взвешиванием предсказаний, которая обходит фундаментальный тупик "заучивания" данных одной моделью.
Исследовать горизонты тут: https://tg-me.sbs/gonzo_ML_podcasts/3904
Отдельно прикольная хитрая эвристика, гениальная в своей простоте, это циклическое изменение learning rate и weight decay в противофазе — с высоким lr исследуем, с высоким wd обобщаем. Я раньше этот подход не встречал, но он ведь супер логичен. Видели его где-нибудь?
q0: Primitives for Hyper-Epoch Pretraining
Bishwas Mandal, Shmuel Berman, Akshay Vegesna, Samip Dahal
Paper: https://arxiv.org/abs/2606.03938
Review: https://arxiviq.substack.com/p/q0-primitives-for-hyper-epoch-pretraining
Code: https://github.com/qlabs-eng/slowrun
# TL;DR
ЧТО сделали: Авторы представили q0 — фреймворк для сверхмногоэпохового предобучения, разработанный для оптимизации распределения вычислительных ресурсов в условиях дефицита данных. Вместо многократного обучения одной модели на фиксированном датасете после точки насыщения, q0 использует параллельное циклическое расписание, последовательную дистилляцию (chain distillation) и выученное априорное распределение обобщения (generalization prior) для создания и объединения пула разнообразных, дополняющих друг друга моделей.
ПОЧЕМУ это важно: По мере истощения качественных текстов в интернете, масштабирование базовых моделей упирается в нехватку данных, а обычное многоэпоховое обучение быстро выходит на плато. Рассматривая предобучение как исследование пространства гипотез множеством моделей, а не как бесконечную полировку одной сети, q0 повышает эффективность использования данных при предобучении до 12.9 раз, а на бенчмарках — до 16.0 раз. Это позволяет эффективно обменивать дополнительные вычисления на инференсе на экономию объёма сырых данных.
Для практиков: Если перед вами стоит задача обучить модель на ограниченном или специализированном датасете, но у вас есть свободные GPU-мощности, q0 предлагает готовую стратегию параллельного обучения ансамблей с умным взвешиванием предсказаний, которая обходит фундаментальный тупик "заучивания" данных одной моделью.
Исследовать горизонты тут: https://tg-me.sbs/gonzo_ML_podcasts/3904
arXiv.org
q0: Primitives for Hyper-Epoch Pretraining
Multi-epoch training is becoming the standard now that compute is growing faster than the supply of high-quality text. But pretraining a single model saturates within a few passes, long before the...
👍8🔥2