Наткнулся на интересный подход для Deep Research — Dataroom
Где автор Dataroom не видит смысла давать эту работу дорогим моделям (в целях экономии токенов) и предлагает делить эту задачу на две фазы:
1/ Локальная модель ищет в вебе, переранжирует источники и складывает всё в структурированный .zip: папки topics/, sources/, data/, summary md и каждый факт с ссылкой на источник.
Это занимает столько времени, сколько ты задашь, ну например час.
2/ Дальше уже дорогой фронтир-агент Claude/Codex читает эти файлы и работает только по ним. Без веба.
Первый вопрос, который у меня возник — ну ладно, локальная модель (автор советует Qwen3.6-35B-A3B), но она же не стоит рядом с тем же фронтир моделями с которыми мы привыкли и как она вообще будет нормально ресёрчить?
Покапался и понял, что qwen не ресёрчит, eё работа оркестрация инструментов:
А всю работу по поиску в вебе делает Jina CLI, не LLM. Он умеет искать, вытаскивать чистый текст со страниц, ранжировать источники по релевантности и выкидывать повторы, даже если они переписаны другими словами.
Плюс цитирование зашито в сам пайплайн: каждый факт записывается с URL на первоисточник.
Eщё бонус локалки в том, что нет лимита сессий. API Claude обрывает сессию по времени и считает токены.
Qwen на твоём железе только тратит электричество и может крутиться час, два, три. Поэтому ресёрч получается долгим, но именно поэтому и тщательным.
Так что хорошая модель ≠ качественный ресёрч. Качество приходит от пайплайна, а не от мощности модели.
Есть еще Skill для агентов, чтобы они сами запускали Dataroom как API: послал запрос, подождал, скачал zip.
Веб-версия | GitHub
@tips_ai #tools
Где автор Dataroom не видит смысла давать эту работу дорогим моделям (в целях экономии токенов) и предлагает делить эту задачу на две фазы:
1/ Локальная модель ищет в вебе, переранжирует источники и складывает всё в структурированный .zip: папки topics/, sources/, data/, summary md и каждый факт с ссылкой на источник.
Это занимает столько времени, сколько ты задашь, ну например час.
2/ Дальше уже дорогой фронтир-агент Claude/Codex читает эти файлы и работает только по ним. Без веба.
Первый вопрос, который у меня возник — ну ладно, локальная модель (автор советует Qwen3.6-35B-A3B), но она же не стоит рядом с тем же фронтир моделями с которыми мы привыкли и как она вообще будет нормально ресёрчить?
Покапался и понял, что qwen не ресёрчит, eё работа оркестрация инструментов:
• Формулирует поисковые запросы
• Решает какие страницы читать дальше
• Понимает когда тему можно закрывать
• Записывает выжимки в markdown
• Через function calling вызывает инструменты, а не пытается их заменить
А всю работу по поиску в вебе делает Jina CLI, не LLM. Он умеет искать, вытаскивать чистый текст со страниц, ранжировать источники по релевантности и выкидывать повторы, даже если они переписаны другими словами.
Плюс цитирование зашито в сам пайплайн: каждый факт записывается с URL на первоисточник.
Eщё бонус локалки в том, что нет лимита сессий. API Claude обрывает сессию по времени и считает токены.
Qwen на твоём железе только тратит электричество и может крутиться час, два, три. Поэтому ресёрч получается долгим, но именно поэтому и тщательным.
Так что хорошая модель ≠ качественный ресёрч. Качество приходит от пайплайна, а не от мощности модели.
Есть еще Skill для агентов, чтобы они сами запускали Dataroom как API: послал запрос, подождал, скачал zip.
Веб-версия | GitHub
@tips_ai #tools
🔥39👍14❤11
Вчера была ежегодная конфа Microsoft, где они показали целый слой своих новых LM и AI продуктов.
Они решили уйти от зависимости OpenAI, и рассказали про собственные модели MAI для агентных рассуждений, кодинга, генерации картинок, синтеза речи и транскрибации:
1. MAI-Thinking-1: рассуждающая модель с 1 триллионом параметров и контекстом 256K.
2. MAI-Code-1-Flash: маленькая дешевая модель для кодинга
3. MAI-Image-2.5: генерация и редактирование изображений на уровне Nano Banana
4. MAI-Voice-2: text-to-speech + speech-to-speech модель
5. MAI-Transcribe-1.5: speech-to-text модель
6. Aion: отдельная линейка маленьких локальных моделей для Windows.
На этих моделях будут работать их новые долгоживущие агенты, построенные на архитектуре OpenClaw. Они будут иметь доступ к контексту Outlook, Teams, OneDrive и тд.
Для того, чтобы:
- Читать и управлять почтой и файлами
- Создавать встречи и события в календаре
- Предупреждать о дедлайнах и забытых задачах
А отдельные локальные модели Aion интегрируют прямо в Windows для работы с текстом, вызова инструментов, управления файлами, распознавания речи. В терминале будет встроенный Copilot, который сам чинит упавшие команды.
@tips_ai #news
Они решили уйти от зависимости OpenAI, и рассказали про собственные модели MAI для агентных рассуждений, кодинга, генерации картинок, синтеза речи и транскрибации:
1. MAI-Thinking-1: рассуждающая модель с 1 триллионом параметров и контекстом 256K.
2. MAI-Code-1-Flash: маленькая дешевая модель для кодинга
3. MAI-Image-2.5: генерация и редактирование изображений на уровне Nano Banana
4. MAI-Voice-2: text-to-speech + speech-to-speech модель
5. MAI-Transcribe-1.5: speech-to-text модель
6. Aion: отдельная линейка маленьких локальных моделей для Windows.
На этих моделях будут работать их новые долгоживущие агенты, построенные на архитектуре OpenClaw. Они будут иметь доступ к контексту Outlook, Teams, OneDrive и тд.
Для того, чтобы:
- Читать и управлять почтой и файлами
- Создавать встречи и события в календаре
- Предупреждать о дедлайнах и забытых задачах
А отдельные локальные модели Aion интегрируют прямо в Windows для работы с текстом, вызова инструментов, управления файлами, распознавания речи. В терминале будет встроенный Copilot, который сам чинит упавшие команды.
@tips_ai #news
👍22❤10🔥7
Media is too big
VIEW IN TELEGRAM
Вообще не использую ни OpenClaw ни Hermes.
Если вы пропустили, Hermes это автономный ИИ-агент (типо OpenClaw), который запоминает опыт между сессиями и после каждой задачи создаёт переиспользуемые скиллы.
Он жил чисто в CLI и большинство юзали его как ассистента в Telegram, из-за чего контролировать его память и настройки было не удобно.
Теперь появился полноценный интерфейс для Windows, macOS, Linux:
В Hermes еще есть режим remote gateway, когда бекенд работает 24/7 на VPS, и можно просто по нужде обращаться к агенту как к любой облачной нейронке.
Скачать можно тут.
Если юзаете Hermes, расскажите какие у вас юзкейсы и почему нельзя сделать то же самое в Claude Code?
@tips_ai #news
Если вы пропустили, Hermes это автономный ИИ-агент (типо OpenClaw), который запоминает опыт между сессиями и после каждой задачи создаёт переиспользуемые скиллы.
Он жил чисто в CLI и большинство юзали его как ассистента в Telegram, из-за чего контролировать его память и настройки было не удобно.
Теперь появился полноценный интерфейс для Windows, macOS, Linux:
- Весь функционал который был скрыт в папках и .md файлах теперь имеет удобный UI.
- В реальном времени видно какие тулы вызывает агент и как рассуждает.
- В боковой панели можно видеть веб-страницы, код, дерево проекта.
- Допом голосовой режим, перетаскивание контента в чат и прочие quality-of-life фичи
В Hermes еще есть режим remote gateway, когда бекенд работает 24/7 на VPS, и можно просто по нужде обращаться к агенту как к любой облачной нейронке.
Скачать можно тут.
Если юзаете Hermes, расскажите какие у вас юзкейсы и почему нельзя сделать то же самое в Claude Code?
@tips_ai #news
👍31🔥15❤6🤡1
Отличная ветка обсуждений получилась под постом про Hermes, cпасибо 🥺
В продолжении: у Саши Полякова в канале вышел разбор по вопросу: на каких моделях таких агентов гонять, чтобы не разориться.
Он держит на Mac Mini двух агентов OpenClaw и Hermes, использует его не для кода, а для бытовой рутины: бронирование парковок, запись на стрижку и тому подобное.
Изначально гонял на GPT-5.4 через подписки, но с ростом нагрузки счёт начал кусаться.
Сейчас использует DeepSeek v4 Pro, так как у них промо $1 за миллион токенов стало постоянным. На двоих агентов уходит примерно $1,5 в день, то есть ~$50 в месяц.
Параллельно прогнал DeepSeek и другие локальные модели на бенчмарке PAC1
PAC1 замеряет, насколько модель хорошо вызывает инструменты, а это и есть основная работа таких агентов. Результат на картинке.
Мне нравится Сашин формат постов и хочу без рекламы порекомендовать его канал.
Где он часто экспериментирует с агентами, создает скилы, MCP и пишет про свои кейсы.
Сам подписан, так что советую заглянуть👍
@tips_ai
В продолжении: у Саши Полякова в канале вышел разбор по вопросу: на каких моделях таких агентов гонять, чтобы не разориться.
Он держит на Mac Mini двух агентов OpenClaw и Hermes, использует его не для кода, а для бытовой рутины: бронирование парковок, запись на стрижку и тому подобное.
Изначально гонял на GPT-5.4 через подписки, но с ростом нагрузки счёт начал кусаться.
Сейчас использует DeepSeek v4 Pro, так как у них промо $1 за миллион токенов стало постоянным. На двоих агентов уходит примерно $1,5 в день, то есть ~$50 в месяц.
Параллельно прогнал DeepSeek и другие локальные модели на бенчмарке PAC1
PAC1 замеряет, насколько модель хорошо вызывает инструменты, а это и есть основная работа таких агентов. Результат на картинке.
Мне нравится Сашин формат постов и хочу без рекламы порекомендовать его канал.
Где он часто экспериментирует с агентами, создает скилы, MCP и пишет про свои кейсы.
Сам подписан, так что советую заглянуть
@tips_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🔥6❤4
Как-то давно не было релизов от генераторов изображений, а сегодня как раз вышло что-то концептуально новое
Это Reve 2.0, и в отличии от моделей OpenAI и Google, в его основе лежит новая [Large Layout] модель, которая представляет изображение в виде структурированной иерархии.
Это когда у каждого элемента картинки есть свой собственный слой и свой собственный промт, получается их можно двигать и точечно изменять промтом не ломая остальное.
- Нативное 4к разрешение
- Генерит почти все aspect-ratio
- Можно прикреплять до 10 референсов
Не уверен что именно эта модель сможет заменить gpt-image или nano-banana в большинстве случаев, но поиграться точно стоит.
В текстах точно уступает GPT и banana.
На арене кстати заняла #2 место после gpt-image-2.
Попробовать тут. Бесплатно дают 20 генераций в день.
Кстати, вместе с Reve вышла еще опенсурсная Ideogram 4, которая тоже работает по Layout принципу.
По качеству чуть уступает Reve, но текста получше.
@tips_ai #tools
Это Reve 2.0, и в отличии от моделей OpenAI и Google, в его основе лежит новая [Large Layout] модель, которая представляет изображение в виде структурированной иерархии.
Это когда у каждого элемента картинки есть свой собственный слой и свой собственный промт, получается их можно двигать и точечно изменять промтом не ломая остальное.
- Нативное 4к разрешение
- Генерит почти все aspect-ratio
- Можно прикреплять до 10 референсов
Не уверен что именно эта модель сможет заменить gpt-image или nano-banana в большинстве случаев, но поиграться точно стоит.
В текстах точно уступает GPT и banana.
На арене кстати заняла #2 место после gpt-image-2.
Попробовать тут. Бесплатно дают 20 генераций в день.
Кстати, вместе с Reve вышла еще опенсурсная Ideogram 4, которая тоже работает по Layout принципу.
По качеству чуть уступает Reve, но текста получше.
@tips_ai #tools
👍24🔥8❤4
Мой друг Даниил, который построил poehali.dev для создания приложений, запустил конкурс в честь открытия канала.
Если интересно, можете поучаствовать👇
Если интересно, можете поучаствовать
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5
Forwarded from Поехали!
Хватит, чтобы сделать несколько сайтов и парочку приложений на poehali.dev. Разделим приз между 18 участниками.
Призы по местам:
🥇 1 место: 50 000 ₽
🥈 2 место: 25 000 ₽
🥉 3 место: 10 000 ₽
🏅 +15 победителей по 1 000 ₽
Как участвовать:
1. Подпишись на @poehali_news
2. Жми «Участвовать» под постом
3. Ответь боту на один вопрос
Поставь реакцию на пост. Так розыгрышей станет больше.
Победителей выберем 20 июня и назовём здесь же. Заходи и забери свой приз!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11🤣8🤡3❤2😁2
Я уже говорил о проблеме, что скиллы и плагины так быстро скапливаются, что начинаешь забывать где что лежит.
Нашел еще вот такое минималистичное приложение которое так и называется Skills.
Очень удобно: всё что у вас установлено разделено на категории, и можно сразу понять например какие есть скиллы для Claude Code, или MCP для Cursor.
Тут же можно их удалять и изменять.
Работает со скиллами, плагинами, MCP серверами для Cursor, Claude Code, Codex, Hermes, Pi, OpenCode.
Еще понравилось что если создаешь новый скилл, то можно выбрать сразу все нейронки, а не копировать туда сюда как обычно.
Из минусов то, что из коробки не детектит скиллы которые лежат внутри отдельных проектов.
Походу чтобы не запрашивать Full Disk Access, но 1 запрос в клод и проблема решена.
Ну и он на macOS. Скачать можно тут.
@tips_ai #tools
Нашел еще вот такое минималистичное приложение которое так и называется Skills.
Очень удобно: всё что у вас установлено разделено на категории, и можно сразу понять например какие есть скиллы для Claude Code, или MCP для Cursor.
Тут же можно их удалять и изменять.
Работает со скиллами, плагинами, MCP серверами для Cursor, Claude Code, Codex, Hermes, Pi, OpenCode.
Еще понравилось что если создаешь новый скилл, то можно выбрать сразу все нейронки, а не копировать туда сюда как обычно.
Из минусов то, что из коробки не детектит скиллы которые лежат внутри отдельных проектов.
Походу чтобы не запрашивать Full Disk Access, но 1 запрос в клод и проблема решена.
Ну и он на macOS. Скачать можно тут.
@tips_ai #tools
🔥23❤13👍7
Недавно заметил что вместо того чтобы самому формулировать промты, я стал просить отдельного агента, чтобы он мои сырые мысли превратил в качественный промт
Я думал что это просто лень, а оказывается это новый тренд в SWE — Loop Engineering.
Идея проста: ты больше не пишешь промпты агенту вручную, а строишь систему (цикл), которая сама ставит агенту задачи, проверяет результат и снова запускает его.
Результат каждой итерации попадает в память проекта и направляет агента к следующему шагу, то есть цикл сам себя улучшает.
Есть два основных подхода: открытый и закрытый цикл.
Открытый цикл больше про исследование, когда ты даёшь агенту широкое поле для манёвра.
Он может пробовать разные пути, находить неожиданные решения, то, что ты заранее не расписал до мелочей.
Закрытый цикл устроен жёстче: понятная цель, заданные шаги, проверка на каждом этапе.
Агенты всё ещё работают в цикле, но уже внутри рамок, которые ты заранее построил.
В обоих случаях качество всего цикла зависит от агента-супервайзера, и как он следит за процессом.
Этот подход щас хайпит в твиттере и продвигается Peter Steinberger, Boris Cherny и Thomas Sottiaux.
Пока что ближе всего циклы реализованы только в Claude Code в виде Workflows +
Еще есть стартап Ara, который построен чисто на циклах: у агента есть память по всему кодбейсу, ты задаешь только долгосрочную цель а агент сам драфтит пул реквесты.
Но лично меня тут смущает только цена: подобные циклы жгут токены непрерывно, значит порог входа сильно вырастет.
@tips_ai #news
Я думал что это просто лень, а оказывается это новый тренд в SWE — Loop Engineering.
Идея проста: ты больше не пишешь промпты агенту вручную, а строишь систему (цикл), которая сама ставит агенту задачи, проверяет результат и снова запускает его.
Результат каждой итерации попадает в память проекта и направляет агента к следующему шагу, то есть цикл сам себя улучшает.
Есть два основных подхода: открытый и закрытый цикл.
Открытый цикл больше про исследование, когда ты даёшь агенту широкое поле для манёвра.
Он может пробовать разные пути, находить неожиданные решения, то, что ты заранее не расписал до мелочей.
Закрытый цикл устроен жёстче: понятная цель, заданные шаги, проверка на каждом этапе.
Агенты всё ещё работают в цикле, но уже внутри рамок, которые ты заранее построил.
В обоих случаях качество всего цикла зависит от агента-супервайзера, и как он следит за процессом.
Этот подход щас хайпит в твиттере и продвигается Peter Steinberger, Boris Cherny и Thomas Sottiaux.
Пока что ближе всего циклы реализованы только в Claude Code в виде Workflows +
/goal.Еще есть стартап Ara, который построен чисто на циклах: у агента есть память по всему кодбейсу, ты задаешь только долгосрочную цель а агент сам драфтит пул реквесты.
Но лично меня тут смущает только цена: подобные циклы жгут токены непрерывно, значит порог входа сильно вырастет.
@tips_ai #news
👍26❤13🔥7🤡3🗿2
Вышла Claude Fable 5 (общедоступная модель класса Mythos)
Прикрепил скрин бенчей, разница с Opus просто небо и земля.
Лучше всех во всем: кодинге, работа с доками, изображениями, длинным контекстом и научных задачах.
Про GPT и Gemini вообще молчу...
Anhropic еще отдельно выделяют новый уровень зрения модели и автономную работу на длинных задачах и в ней намного жестче защитные механизмы.
Если модель посчитает что запрос связан с кибербезом, биологией, химией или попытками дистилляции модели, то она может автоматически переключиться на Opus 4.8 вместо Fable 5.
Кстати цена API в два раза дороже Opus 4.8:
$10 / млн на вход
$50 / млн на выход
Модель будет включена в подписку только до 22 июня, а дальше придется переходить на кредиты, если акцию не продлят.
Тестируем✋
@tips_ai #news
Прикрепил скрин бенчей, разница с Opus просто небо и земля.
Лучше всех во всем: кодинге, работа с доками, изображениями, длинным контекстом и научных задачах.
Про GPT и Gemini вообще молчу...
Anhropic еще отдельно выделяют новый уровень зрения модели и автономную работу на длинных задачах и в ней намного жестче защитные механизмы.
Если модель посчитает что запрос связан с кибербезом, биологией, химией или попытками дистилляции модели, то она может автоматически переключиться на Opus 4.8 вместо Fable 5.
Кстати цена API в два раза дороже Opus 4.8:
$10 / млн на вход
$50 / млн на выход
Модель будет включена в подписку только до 22 июня, а дальше придется переходить на кредиты, если акцию не продлят.
Тестируем
@tips_ai #news
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22❤11👍11