CogVideoX Factory - репозиторий с набором скриптов для эффективного файнтюна моделей семейства CogVideoX (CogVideoX-2B и CogVideoX-5B) с фокусом на оптимизацию VRAM. CogVideoX Factory позволяет выполнять обучение на GPU с 24 GB.
Проект предоставляет гибкость в выборе между LoRA и файнтюном всей модели для задач "text-to-video" и "IMG-to-video".
Чтобы сделать возможным файнтюн на ограниченных ресурсах, CogVideoX использует методы оптимизации:
CogVideoX Factory предлагает сценарии обучения:
train_text_to_video_lora.sh;train_image_to_video_lora.sh;train_text_to_video_sft.sh.⚠️ Предварительная подготовка данных - один из важнейших условий CogVideoX Factory. Скрипт
prepare_dataset.py играет ключевую роль в этом процессе, преобразуя видео и аннотации в латенты и эмбединги. Использование предварительно вычисленных латентов и эмбедингов позволяет не загружать VAE и T5 во время обучения.CogVideoX Factory предлагает подробную документацию, в которой объясняются шаги по подготовке датасетов, настройке параметров обучения, запуску инференса, информацию о требованиях к памяти для каждой модели и конфигурации, помогая принять корректные решения о выборе стратегии обучения.
@ai_machinelearning_big_data
#AI #ML #LoRA #T2V #IMG2V #Finetune
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15👍9❤5
Awesome-Self-Evolving-Agents - подборка материалов по теме оптимизации агентов в концепции саморазвивающихся систем, в которой собраны работы с 2023 по 2025 год по 3-м направлениям: оптимизация одиночного агента, оптимизация мультиагентных систем и методы их оценки.
Содержание
@ai_machinelearning_big_data
#AI #ML #LLM #Agents #AwesomeList #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63❤28🔥10
Агенты, которые управляют браузером или правят код, решают каждую задачу с нуля. Провалился - забыл. Получилось - тоже забыл. Google Research предложил фреймворк ReasoningBank, который даёт агенту память и позволяет учиться на ошибках, а не только на победах.
Предшественники (Synapse, AWM) запоминали только успешные прогоны. Когда им скормили провальные - стало хуже: AWM потерял 2,2% точности. ReasoningBank, в свою очередь, из успешной траектории он берёт валидированную стратегию, а из провальной - урок, что пошло не так.
Агент получает задачу "найди дату первой покупки". Без системы памяти он заходит в "Последние заказы", видит свежий заказ и выдаёт неверный ответ.
С ReasoningBank - вспоминает стратегию из прошлого опыта: при поиске в истории проверяй все страницы, а не только первую. Переходит в полный список заказов, листает до конца и находит правильную дату.
Другой пример: задача "купи самый топовый товар из категории мужской обуви". Без памяти агент тратит 29 шагов, потому что не может найти фильтр по категории, а с памятью только 10, так как стратегия фильтрации уже в запасе.
После каждой задачи та же языковая модель оценивает, удалась попытка или нет. Из траектории извлекаются записи (заголовок, описание, содержание), намеренно абстрагированные от конкретного сайта.
Перед новой задачей агент ищет похожие записи через эмбеддинг-поиск и получает их как часть промпта.
Это метод (Memory-aware Test-Time Scaling) масштабирования вычислений на инференсе с учётом памяти.
Агент генерирует несколько попыток для одной задачи, сравнивает их между собой и выделяет устойчивые паттерны.
Получается цикл: хорошая память направляет попытки в перспективные области, а разнообразные попытки обогащают память.
На WebArena ReasoningBank поднимает процент успеха на 8,3 п.п. с Gemini-2.5-flash и на 7,2 п.п. с Gemini-2.5-pro, сокращая число шагов до 16%.
На SWE-Bench-Verified resolve rate увеличился с 54% до 57,4%, при этом расход токенов больше всего на 4,3%.
Фреймворк работает и на маленьких моделях: на WebArena-Shopping даже Gemma-3-12B с ReasoningBank улучшает показатель с 17,1% до 24,1%.
@ai_machinelearning_big_data
#AI #ML #Memory #Agents #ReasoningBank #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤩108💯32🔥28❤24👍14🤓14👏8⚡1
Подразделение AI Research компании WRITER, разработчика корпоративных ИИ-систем, опубликовало 2 работы, посвящённые исследованию склонности языковых моделей соглашаться с пользователем, даже когда тот неправ.
Спойлер:
Авторы протестировали 8 актуальных моделей на двух наборах данных, искусственно добавляя в запрос ложные предпочтения, которые противоречили верному ответу.
Оказалось, что способ внедрения влияет на результат. При прямой вставке в запрос точность падает сильнее, но модель чаще отмечает противоречие, а когда те же данные подаются через инструмент памяти, точность снижается меньше, но модели почти перестают сигнализировать о конфликте и выдают неверные ответы без предупреждения.
Крупные модели, кстати, чаще ошибаются, всё же фиксируя противоречие, тогда как мелкие - просто умалчивают о диссонансе.
Для проверки построили тест MIST и оценили 5 моделей в связке с 3 коммерческими системами памяти (Mem0, MemOS и Zep).
По итогу - каждая модель как минимум утроила частоту согласия с ошибкой хотя бы при одной конфигурации памяти. Из этого авторы делают вывод, что проблема связана со слоем памяти, а не с моделью.
Системы памяти сохраняют утверждение пользователя как отдельный факт, отбрасывая контекст вокруг него, в том числе прежние возражения ассистента.
По замерам, замена извлечённых фрагментов на полную историю переписки примерно вдвое уменьшает эффект.
Авторы предлагают 2 способа смягчения:
Результаты исследования ставят вопрос о том, что в принципе дают сложные системы памяти, если они так влияют на точность ответов.
@ai_machinelearning_big_data
#AI #ML #LLM #Memory #Research #WRITER
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔46👍39❤13🤓12🤷♂7🔥4🤨3🗿1