Pavel Zloi
Соцсети доживают свой век Всё чаще замечаю, что листать динамическую ленту на ютубе, в твиттере, инсте и тиктоке в последнее время становится невыносимо, cоцсети завалены низкокачественным нейроконтентом. Заметная часть коротких видео это говорилка в стиле…
Маркеры AI Slop (от которых меня мутит (прям очень))
Пишу данный пост после чтения постов на Хабр и некоторых тг-каналов на которые подписан.
В данный публикации расскажу вам про признаки текста c большой долей вероятности сгенерированного моделью, когда встречаю хотя бы три из них то обычно скипаю пост, так как с моей скромной точки зрения наличествование указанных клише говорит о том, что автор решил не заморачиваться с вычиткой и тюном, а значит и мне нет смысла напрягаться в прочтении.
Начнем с банальщины…
Прорывная технология Ж: Как мы сделали О через П (в заголовке статей, нейронки любят это клише)
Если в тексте — длинные дефисы, то — вероятно — это слоп, нормальные люди — даже не знают как — их делать (спойлер, два раза минус)
Дурацкие 🤣 эмодзи 🍺 по поводу и без 👍
Горизонтальные разделители текста
———
модель будто считает, что читатель не способен различать абзацы.
«слова» в таких вот фигурных кавычках, хотя можно не придуриваться и писать "нормально"
Бесполезные двоеточия: по поводу, и без. Иногда: несколько, раз, за абзац
Все предложения, даже у списков, оканчиваются точкой.
Так же частенько встречаются:
- Очень: нудные.
- Списки: с бесполезной.
- Структурированной: информацией.
Z это Y, а не X (вот от этого мне дурно сильнее всего, хотя раньше я и сам использовал данную конструкцию, но модельки, аки Ржевский, все опошлили)
Длинные, идеально грамотные и ровные абзацы текста, как правило содержащие приблизительно два или три предложения. Полагаю такой размер связан с тем, что в современном мире людям сложно удерживать внимание на более сложной структуре подачи информации. Плюс модели сами по себе не способны генерировать лаконичный текст.
Есть ещё ряд признаков и клише по которым можно подмечать пост сгенерированный моделью, но это уже мелочи.
А по каким признакам вы выявляете нейрослоп?
Пишу данный пост после чтения постов на Хабр и некоторых тг-каналов на которые подписан.
В данный публикации расскажу вам про признаки текста c большой долей вероятности сгенерированного моделью, когда встречаю хотя бы три из них то обычно скипаю пост, так как с моей скромной точки зрения наличествование указанных клише говорит о том, что автор решил не заморачиваться с вычиткой и тюном, а значит и мне нет смысла напрягаться в прочтении.
Начнем с банальщины…
Прорывная технология Ж: Как мы сделали О через П (в заголовке статей, нейронки любят это клише)
Если в тексте — длинные дефисы, то — вероятно — это слоп, нормальные люди — даже не знают как — их делать (спойлер, два раза минус)
Дурацкие 🤣 эмодзи 🍺 по поводу и без 👍
Горизонтальные разделители текста
———
модель будто считает, что читатель не способен различать абзацы.
«слова» в таких вот фигурных кавычках, хотя можно не придуриваться и писать "нормально"
Бесполезные двоеточия: по поводу, и без. Иногда: несколько, раз, за абзац
Все предложения, даже у списков, оканчиваются точкой.
Так же частенько встречаются:
- Очень: нудные.
- Списки: с бесполезной.
- Структурированной: информацией.
Z это Y, а не X (вот от этого мне дурно сильнее всего, хотя раньше я и сам использовал данную конструкцию, но модельки, аки Ржевский, все опошлили)
Длинные, идеально грамотные и ровные абзацы текста, как правило содержащие приблизительно два или три предложения. Полагаю такой размер связан с тем, что в современном мире людям сложно удерживать внимание на более сложной структуре подачи информации. Плюс модели сами по себе не способны генерировать лаконичный текст.
Есть ещё ряд признаков и клише по которым можно подмечать пост сгенерированный моделью, но это уже мелочи.
А по каким признакам вы выявляете нейрослоп?
👍31🤡13❤8🥴3😁2👌1💯1
Дзен построения агентных систем
Ну чтож, месяц агентности предлагаю начать с базированного поста про то как я собираю агентные системы.
Большинство моих решений выглядят просто и лаконично, словно конструктор лего, обычно это связка из небольших кубиков в которые входят агент, MCP-серверы, консольные тулы и скилы.
Обвязку (то бишь harness) подбираю под задачу. Чем менее перегружена система, тем проще её развивать, ну и не забываю про закон Люссера, который гласит "каждый дополнительный узел в системе понижает качество её работы".
Агент - ядро
В качестве ядра системы обычно выбираю минималистичный кодовый агент, к примеру OpenCode, его запускаю в режиме Agent Client Protocol (ACP) и затем подключаю через OpenAI-прокси acpbox, либо использую мой Coddy Agent, так как он умеет и ACP и HTTP из коробки.
Реже на Ralph-loop пишу кастомные решения, когда нужна минималистичность и возможность глубокой интеграции, а иногда беру большие агенты типа Codex, Claude, Hermes, OpenClaw, но с этим есть свои риски.
Кстати OpenAI-совместимая API-шка нужна если агент должен работать во внешнем интерфейсе, типа Open WebUI или LibreChat.
MCP - для внешних систем
Как правило подбираю готовые MCP-серверы, реже пишу кастомные решения под задачу, потому как почти все MCP-серверу уже придуманы и написаны не один раз, повторяться смысла особого нет.
Для Confluence и Jira чаще всего беру mcp-atlassian, для почты и календаря беру Google Workspace MCP от Google, иногда просят интеграции во всякие Notion, Linear, MediaWiki, у каждой системы свои MCP, их тоже подбираю в зависимости от задачи.
Реже нужны системы электронного документооборота навроде Мой Офис или Google Docs, файловые хранилища типа S3 и СУБД навроде MySQL, PosgtreSQL и так далее, тут уже смотрю, есть ли готовый нормальный MCP или проще через CLI всё настроить.
К слову сказать избранную коллекцию MCP-серверов вы можете найти в разделе MCP портала Neuraldeep.
CLI - для ёмких задач
Для редких или тяжёлых операций предпочтительнее использовать консоль, например вместо GitHub MCP берём gh, для GitLab берём glab, для S3 брём aws-cli, а для скачивания видео yt-dlp и так далее.
Консольные тулы удобны ещё и тем, что их легко собрать в скрипт, а его уже упаковать в skill, к примеру нам хочется сделать пайплайн вида yt-dlp -> метаданные в MySQL -> видео на S3, мы просим агента автоматизировать эту историю в виде шельника, затем выполнить и показать результат.
Подборочку консольных тулов в вы можете найти в разделе CLI на Neuraldeep.
Skills - когда описываю флоу
Skills я использую, чтобы научить агента работать с MCP и CLI по необходимым в рамках проекта правилам, фишка скилов в том что их очень удобно тюнить под задачу не ломая кукуху базовому агенту, плюс скилы позволяют подключать уже готовые реализации некоторых историй.
Подборочку скилов вы сможете найти в разделе Skills, опять же, на Neuraldeep.
Что и когда выбирать
Если в вашем проекте есть некая частая процедура типа поиск по базе знаний или предполагается работа с защищённой системой к которой напрямую вы доступа давать агенту не желаете, тогда лучше выбрать MCP, это безопаснее прочих вариантов, плюс тул этот всегда под рукой.
Если операция редкая и/или сложная, тогда практичнее использовать консольные тулы, в своих проектах я иногда перечисляю список команд в промте, хотя и без этого будет работать, но дольше, потому что агент будет их искать сам.
Если нужна сложная цепочка из нескольких MCP и CLI, тогда пишу скрипт и кладу его в скил, хотят тут тоже своя боль, промт заточенный под одну модель (скажем, написанный в условном opus 4.8), на другой (gpt 5.5, qwen 3.6) может давать осечки примерно 50 на 50, под каждую модель иногда приходится его тюнить.
Итого
Используя данный подход вы через любой кодовый агент сможете получить решение под свою задачу, просто пишете из каких кубиков хотите что собрать, потом проверяете результат и можете приступать к внедрению. Главное не заниматься искусством ради искусства и не раздувать систему ради красоты архитектуры.
#МесяцАгентности
Ну чтож, месяц агентности предлагаю начать с базированного поста про то как я собираю агентные системы.
Большинство моих решений выглядят просто и лаконично, словно конструктор лего, обычно это связка из небольших кубиков в которые входят агент, MCP-серверы, консольные тулы и скилы.
Обвязку (то бишь harness) подбираю под задачу. Чем менее перегружена система, тем проще её развивать, ну и не забываю про закон Люссера, который гласит "каждый дополнительный узел в системе понижает качество её работы".
Агент - ядро
В качестве ядра системы обычно выбираю минималистичный кодовый агент, к примеру OpenCode, его запускаю в режиме Agent Client Protocol (ACP) и затем подключаю через OpenAI-прокси acpbox, либо использую мой Coddy Agent, так как он умеет и ACP и HTTP из коробки.
Реже на Ralph-loop пишу кастомные решения, когда нужна минималистичность и возможность глубокой интеграции, а иногда беру большие агенты типа Codex, Claude, Hermes, OpenClaw, но с этим есть свои риски.
Кстати OpenAI-совместимая API-шка нужна если агент должен работать во внешнем интерфейсе, типа Open WebUI или LibreChat.
MCP - для внешних систем
Как правило подбираю готовые MCP-серверы, реже пишу кастомные решения под задачу, потому как почти все MCP-серверу уже придуманы и написаны не один раз, повторяться смысла особого нет.
Для Confluence и Jira чаще всего беру mcp-atlassian, для почты и календаря беру Google Workspace MCP от Google, иногда просят интеграции во всякие Notion, Linear, MediaWiki, у каждой системы свои MCP, их тоже подбираю в зависимости от задачи.
Реже нужны системы электронного документооборота навроде Мой Офис или Google Docs, файловые хранилища типа S3 и СУБД навроде MySQL, PosgtreSQL и так далее, тут уже смотрю, есть ли готовый нормальный MCP или проще через CLI всё настроить.
К слову сказать избранную коллекцию MCP-серверов вы можете найти в разделе MCP портала Neuraldeep.
CLI - для ёмких задач
Для редких или тяжёлых операций предпочтительнее использовать консоль, например вместо GitHub MCP берём gh, для GitLab берём glab, для S3 брём aws-cli, а для скачивания видео yt-dlp и так далее.
Консольные тулы удобны ещё и тем, что их легко собрать в скрипт, а его уже упаковать в skill, к примеру нам хочется сделать пайплайн вида yt-dlp -> метаданные в MySQL -> видео на S3, мы просим агента автоматизировать эту историю в виде шельника, затем выполнить и показать результат.
Подборочку консольных тулов в вы можете найти в разделе CLI на Neuraldeep.
Skills - когда описываю флоу
Skills я использую, чтобы научить агента работать с MCP и CLI по необходимым в рамках проекта правилам, фишка скилов в том что их очень удобно тюнить под задачу не ломая кукуху базовому агенту, плюс скилы позволяют подключать уже готовые реализации некоторых историй.
Подборочку скилов вы сможете найти в разделе Skills, опять же, на Neuraldeep.
Что и когда выбирать
Если в вашем проекте есть некая частая процедура типа поиск по базе знаний или предполагается работа с защищённой системой к которой напрямую вы доступа давать агенту не желаете, тогда лучше выбрать MCP, это безопаснее прочих вариантов, плюс тул этот всегда под рукой.
Если операция редкая и/или сложная, тогда практичнее использовать консольные тулы, в своих проектах я иногда перечисляю список команд в промте, хотя и без этого будет работать, но дольше, потому что агент будет их искать сам.
Если нужна сложная цепочка из нескольких MCP и CLI, тогда пишу скрипт и кладу его в скил, хотят тут тоже своя боль, промт заточенный под одну модель (скажем, написанный в условном opus 4.8), на другой (gpt 5.5, qwen 3.6) может давать осечки примерно 50 на 50, под каждую модель иногда приходится его тюнить.
Итого
Используя данный подход вы через любой кодовый агент сможете получить решение под свою задачу, просто пишете из каких кубиков хотите что собрать, потом проверяете результат и можете приступать к внедрению. Главное не заниматься искусством ради искусства и не раздувать систему ради красоты архитектуры.
#МесяцАгентности
👍24🔥17❤3🤔2💩2
Pavel Zloi
Дзен построения агентных систем Ну чтож, месяц агентности предлагаю начать с базированного поста про то как я собираю агентные системы. Большинство моих решений выглядят просто и лаконично, словно конструктор лего, обычно это связка из небольших кубиков…
В рамках развития вчерашней истории про мой дзен построения минималистичных агентных решений подготовил репозиторий agent-template с двумя описанными в посте подходами, через coddy и через opencode в формате docker compose и простенького харнес.
Указанный шаблон интересен тем, что в нём ничего лишнего, только базовый функционал который по желанию допиливается в любом направлении.
PS. Там я кстати сразу подготовил интеграцию с Hub Neuraldeep, так что вам надо будет только ключик подкинуть и можно пользоваться.
Указанный шаблон интересен тем, что в нём ничего лишнего, только базовый функционал который по желанию допиливается в любом направлении.
PS. Там я кстати сразу подготовил интеграцию с Hub Neuraldeep, так что вам надо будет только ключик подкинуть и можно пользоваться.
GitHub
GitHub - EvilFreelancer/agent-template: A Lego-style agent system template built from agent, MCP, CLI, and skills.
A Lego-style agent system template built from agent, MCP, CLI, and skills. - EvilFreelancer/agent-template
🔥12👍2
Создано в разных агентах
Вожусь с проектами в разных агентах уже вторую неделю и заметил занятную закономерность:
И наоборот, проект который строился на GPT через Codex, Claude Code потом причёсывает с трудом. Агент как будто не понимает чужой почерк, спотыкается на архитектурных решениях, которые другой агент принял сам для себя.
При этом проекты, которые изначально делались на слабых моделях предыдущего поколения или через Model: Auto в Cursor мигрируют на вендорлочные агенты без проблем, и Claude Code с ними работает, и Codex.
Тут как раз вспомнился недавний пост Александра @countwithsasha (который я прочёл у Александра @dealerAI), он разбирал исследование про то что Claude не должен проверять свой же код, потому что узнаёт знакомые паттерны и одобряет их не через анализ а через распознавание. Я тогда в комментах вспоминал про метчинг резюме, типа если сгенерить его через LLM и потом попросить её же оценить, оценка будет выше чем у похожего резюме сгенеренного моделью другой архитектуры.
Гипотеза, которая приходит в голову:
Вопрос к аудитории, есть ли у кого похожие наблюдения?
Или замечали обратное - что флагманские модели наоборот лучше "читают" чужой код?
UPD. В комментах пришли к идее что вероятно Model: Auto у курсора благодаря тому что запрос ходит в разные модели позволяет "усреднить" стиль кода, поэтому что клод что кодекс видят в нём что-то знакомое меньше хотят всё поломать и переделать.
#МесяцАгентности
Вожусь с проектами в разных агентах уже вторую неделю и заметил занятную закономерность:
Если проект начат через Claude Code с Opus, то Codex через GPT его тянет плохо.
И наоборот, проект который строился на GPT через Codex, Claude Code потом причёсывает с трудом. Агент как будто не понимает чужой почерк, спотыкается на архитектурных решениях, которые другой агент принял сам для себя.
При этом проекты, которые изначально делались на слабых моделях предыдущего поколения или через Model: Auto в Cursor мигрируют на вендорлочные агенты без проблем, и Claude Code с ними работает, и Codex.
Тут как раз вспомнился недавний пост Александра @countwithsasha (который я прочёл у Александра @dealerAI), он разбирал исследование про то что Claude не должен проверять свой же код, потому что узнаёт знакомые паттерны и одобряет их не через анализ а через распознавание. Я тогда в комментах вспоминал про метчинг резюме, типа если сгенерить его через LLM и потом попросить её же оценить, оценка будет выше чем у похожего резюме сгенеренного моделью другой архитектуры.
Гипотеза, которая приходит в голову:
Флагманские модели при генерации кода вносят в него свой "почерк", структуру, паттерны и идиомы, которые отражают как именно эта модель решает задачи, как она обучалась и как работает, а вот слабые модели походу этого не делают, код остаётся нейтральным.
Вопрос к аудитории, есть ли у кого похожие наблюдения?
Или замечали обратное - что флагманские модели наоборот лучше "читают" чужой код?
UPD. В комментах пришли к идее что вероятно Model: Auto у курсора благодаря тому что запрос ходит в разные модели позволяет "усреднить" стиль кода, поэтому что клод что кодекс видят в нём что-то знакомое меньше хотят всё поломать и переделать.
#МесяцАгентности
❤10🔥5👍3😁1
Forwarded from Dealer.AI
Капибары на службе ИИ найма.
Если вы видите на этомизображении резюме капибару, похвалите себя и выдайте оффер 🤩
В эксперименте выше ребятки запилили шуточное резюме, перемежая описание ухода за капибарами с реальными скиллами.Лучший навык был, разумеется "чесать пузики капибарам" 😜
Результаты размещения CV поразили даже авторов.
Ключевая статистика за неделю:
1. Отклики и просмотры. При 100 отправленных резюме они получили 240 просмотров.
2. Приглашения. Рекордные 40 приглашений на собеседования, причём лишь пара человек заметили подвох.
3. Нехватка времени. HR-специалисты были настолько активны, что автору пришлось вручную отправлять автоматические отказы с пометкой "резюме уже не актуально".😁
Делаем выводы - современные системы найма ATS и ИИ-фильтры отлично атакуются при помощи инъекций.🚬
Адекватные резюме реальных специалистов часто отсеиваются, в то время как откровенно шуточное, но "оптимизированное" резюме проходит все этапы. Поэтому, ребятки, имейте при себе пару AI-native резюмешек под алгоритмы с ИИ.👍
#meme
Если вы видите на этом
В эксперименте выше ребятки запилили шуточное резюме, перемежая описание ухода за капибарами с реальными скиллами.
Результаты размещения CV поразили даже авторов.
Ключевая статистика за неделю:
1. Отклики и просмотры. При 100 отправленных резюме они получили 240 просмотров.
2. Приглашения. Рекордные 40 приглашений на собеседования, причём лишь пара человек заметили подвох.
3. Нехватка времени. HR-специалисты были настолько активны, что автору пришлось вручную отправлять автоматические отказы с пометкой "резюме уже не актуально".
Делаем выводы - современные системы найма ATS и ИИ-фильтры отлично атакуются при помощи инъекций.
Адекватные резюме реальных специалистов часто отсеиваются, в то время как откровенно шуточное, но "оптимизированное" резюме проходит все этапы. Поэтому, ребятки, имейте при себе пару AI-native резюмешек под алгоритмы с ИИ.
#meme
Please open Telegram to view this post
VIEW IN TELEGRAM
😁16
Как согласовать агенты Cursor и ClaudeCode в одном проекте
Когда начинаешь работать с несколькими агентами в одном проекте, быстро упираешься в одну раздражающую вещь: у каждого агента своя папка с правилами, и они ничего не знают друг о друге.
В Cursor правила лежат в
Эксперименты провожу на кодовой базе coddy-agent (это мой проект, Go-харнесс поверх ACP), начинал я его на Cursor с одним лишь AGENTS, а в мае добавил DESIGN и
Чуть больше недели назад оплатил себе подписку на Claude Code, и обнаружил, что он эти правила не видит,
Решение проблемы очевидное, надо держать оба набора под каждый агент в репозитории, намедни добавил
Получилось так:
А чтобы агенты не забывали друг о друге в workflow.mdc добавил явное напоминание: если меняешь правило, не забудь синхронизировать в обе папки.
Итого практика, которая у меня сложилась:
1. Пишешь правила один раз в том формате, который удобен (я начал с Cursor)
2. При изменении синхронизируешь вторую папку (происходит копипаста с заменой метадаты)
3. Оба набора коммитаем в репо
Немного костыльно, но зато оба агента работают с одним и тем же контекстом, не надо объяснять проект с нуля при смене инструмента.
#МесяцАгентности
Когда начинаешь работать с несколькими агентами в одном проекте, быстро упираешься в одну раздражающую вещь: у каждого агента своя папка с правилами, и они ничего не знают друг о друге.
В Cursor правила лежат в
.cursor/rules/*.mdc (читаем про Cursor Rules), а Claude Code берёт их из.claude/rules/*.md (читаем про Claude Rules), структура там и сям плюс минус похожая, но вот формат немного отличается.Эксперименты провожу на кодовой базе coddy-agent (это мой проект, Go-харнесс поверх ACP), начинал я его на Cursor с одним лишь AGENTS, а в мае добавил DESIGN и
.cursor/rules/, там описаны: архитектура, кодстайл, тестирование, HTTP-слой, порядок реализации. Cursor без лишнего тупняка их подхватывал, агент понимал проект, не лез куда не надо и сразу начинал пилить фичи.Чуть больше недели назад оплатил себе подписку на Claude Code, и обнаружил, что он эти правила не видит,
.cursor/rules/ клод старательно игнорирует и лезет только когда я прямо прошу его посмотреть. Каждый раз приходилось объяснять одно и то же: слои, куда не импортировать, как прогонять тесты, что OpenAPI надо синхронизировать и что тестить фичи UI в playwright mcp.Решение проблемы очевидное, надо держать оба набора под каждый агент в репозитории, намедни добавил
.claude/rules/ с почти полной копией текста правил курсора, но адаптированными под формат клода (paths: вместо globs:, .md вместо .mdc).Получилось так:
.cursor/rules/
architecture.mdc
workflow.mdc
testing.mdc
...
.claude/rules/
architecture.md
workflow.md
testing.md
...
А чтобы агенты не забывали друг о друге в workflow.mdc добавил явное напоминание: если меняешь правило, не забудь синхронизировать в обе папки.
Итого практика, которая у меня сложилась:
1. Пишешь правила один раз в том формате, который удобен (я начал с Cursor)
2. При изменении синхронизируешь вторую папку (происходит копипаста с заменой метадаты)
3. Оба набора коммитаем в репо
Немного костыльно, но зато оба агента работают с одним и тем же контекстом, не надо объяснять проект с нуля при смене инструмента.
#МесяцАгентности
❤9👍6👎3
Занятный факт, в Cursor 3.7 прокачали Design Mode (это когда во встроенном браузере запускаем приложение, эдакий playwright встроенный в ide), теперь можно вместо скриншотов просто мышкой через UI потыкать области в которые требуется внести правки, описать что сделать и отправить агенту.
❤13
Какое жаргонное название OpenAI вы чаще всего используете или встречаете на просторах этих ваших интернетов?
Final Results
26%
клозеды
51%
"open"AI
4%
опята
12%
дефолт
12%
Свой вариант в комментариях
😴3🔥2
Что из этого вы использовали/встречали чаще всего?
Final Results
22%
ants
20%
трупики
36%
жадины
12%
извиняющиеся
24%
Свой вариант в комментариях
😁4👎1🥴1
Много работаю с моделями Antropic и OpenAI, неоднократно замечал проседание качества работы в будние дни в зависимости от времени.
Утром обычно норм, но вот после обеда агенты будто подтупливать начинают всё чаще, плюс лимиты быстрее уходят. Пошерстил по сети и форумам, есть отдельные комментарии что что-то такое у разных людей бывает, но официально вроде как не подтверждено, исследований тоже не попадалось больших.
Короче решил составить себе памятку с расписанием о том когда лучше всего гонять агентов, надеюсь и вам пригодится.
#МесяцАгентности
Утром обычно норм, но вот после обеда агенты будто подтупливать начинают всё чаще, плюс лимиты быстрее уходят. Пошерстил по сети и форумам, есть отдельные комментарии что что-то такое у разных людей бывает, но официально вроде как не подтверждено, исследований тоже не попадалось больших.
Короче решил составить себе памятку с расписанием о том когда лучше всего гонять агентов, надеюсь и вам пригодится.
#МесяцАгентности
🔥22😁7❤1😢1
This media is not supported in your browser
VIEW IN TELEGRAM
В чем вайбкодить, брат? #meme
😁47🤮3💩2🤣2🗿1
GitHub
GitHub - stalwartlabs/stalwart: All-in-one Mail & Collaboration server. Secure, scalable and fluent in every protocol (IMAP, JMAP…
All-in-one Mail & Collaboration server. Secure, scalable and fluent in every protocol (IMAP, JMAP, SMTP, CalDAV, CardDAV, WebDAV). - stalwartlabs/stalwart
Пару дней тестил и готовил для NeuralDeep возможность регистрироваться через почтовый ящик, в качестве почтового сервера рассматривал несколько разных вариантов, но больше всего понравился on-premise сервер (а вы знаете как я обожаю софт который работает на моём железе и не лезет в облака) под названием Stalwart.
У сервера есть ряд фичей, которых нет у классики и конкурентов, прежде всего это один Docker-образ, то есть берём и запускаем, плюс есть нативная интеграция в traefik, что очень удобно для генерации автоматических сертификатов, есть апишка для менеджмента юзеров, ну и конечно же админка тоже есть. Чтобы настроить всю эту историю достаточно запустить контейнер, открыть порты, потом через DNS добавить записи.
Короче рекомендую.
У сервера есть ряд фичей, которых нет у классики и конкурентов, прежде всего это один Docker-образ, то есть берём и запускаем, плюс есть нативная интеграция в traefik, что очень удобно для генерации автоматических сертификатов, есть апишка для менеджмента юзеров, ну и конечно же админка тоже есть. Чтобы настроить всю эту историю достаточно запустить контейнер, открыть порты, потом через DNS добавить записи.
Короче рекомендую.
👍10🔥9❤🔥1🥴1
Pavel Zloi
Claude Mythos это самая мощная модель-хакер или самый дорогой маркетинговый миф в истории ИИ? Anthropic анонсировала модель, которая находит zero-day во всех ОС и браузерах, ломает чруты и пишет эксплойты на раз-два. Рынок кибербезопасности дрогнул, правительства…
Прочёл "Anthropic готовится представить коммерческую версию Mythos" на Хабр.
Возвращаясь к моему прошлому посту на Boosty (кстати подписывайтесь чтобы поддержать моё творчество) про Mythos, в конце того поста я написал:
И судя по всему я оказался прав, не такой уж и страшный походу миф этот.
PS. После релиза предполагаю мы скорее всего узнаем, что это всё таки был harness с ИБ-базами, но не модель.
Возвращаясь к моему прошлому посту на Boosty (кстати подписывайтесь чтобы поддержать моё творчество) про Mythos, в конце того поста я написал:
PPS. Если через полгода Anthropic вдруг выпустит Mythos в публичный доступ без существенных изменений - знайте, что "опасность для общества" оказалась не страшнее очередного тюна квена, а если так и останется за семью печатями - то это вероятно будет ещё одно подтверждение тезиса, миф существует лишь до тех пор, пока его не проверят профильные специалисты используя научный метод.
И судя по всему я оказался прав, не такой уж и страшный походу миф этот.
PS. После релиза предполагаю мы скорее всего узнаем, что это всё таки был harness с ИБ-базами, но не модель.
👎7🔥5💯3👍2❤1🎉1🤡1
🧵 Thread • FixupX
John Scott-Railton (@jsrailton)
NEW: malware developers added nuclear & biological weapons text to to their spyware.
Goal? To trigger LLM safety refusals... so that their spyware wouldn't be analyzed by an AI security scanner.
Cleanest practical example I can think of for why over-indexing…
Goal? To trigger LLM safety refusals... so that their spyware wouldn't be analyzed by an AI security scanner.
Cleanest practical example I can think of for why over-indexing…
Занятный пример LLM-инъекции в данном посте описан.
Данный приём был использован против анализа кода большими языковыми моделями, авторы просто добавили в комментарии и документацию упоминания биологического и ядерного оружия и у модели проводящей аудит начали срабатывают защитные механизмы.
Как следствие проверяющая система не смотрит на вредоносный код создавая тем самым белые пятна.
Данный приём был использован против анализа кода большими языковыми моделями, авторы просто добавили в комментарии и документацию упоминания биологического и ядерного оружия и у модели проводящей аудит начали срабатывают защитные механизмы.
Как следствие проверяющая система не смотрит на вредоносный код создавая тем самым белые пятна.
😁24👍5
YouTube
Scott and Mark learn to Vibe Check with Steve Sanderson | LIVE116
AI can turn an idea into a working demo faster than ever. But can that demo survive two experts who have seen every trick in the book? In this live Build showcase, developers present AI-assisted apps, agents, tools, and workflows to Mark Russinovich and Scott…
VibeOS - The world's first hallucinated operating system
Первая в мире операционная система состоящая из галлюцинации и AI слопа, которые генерируются в реальном времени, удивлён как я на целую неделю после появления данного видео запоздал с его просмотром.
Если кратко, то автор сделал базовое ядро операционки, подключил к ней кодовый агент и сделал интерфейс похожий на windows xp. Когда пользователь запускает любое приложение и пытается им пользоваться кодовый агент генерирует интерфейс и содержимое на лету, придумывая по ходу дизайн и контент, на презентации хорошо видно как это работает. К сожалению игры не были показаны, но с простыми приложениями агент справляется, чувствует вайб нулевых.
Посмотреть видео тут, после 9й техническая часть.
Первая в мире операционная система состоящая из галлюцинации и AI слопа, которые генерируются в реальном времени, удивлён как я на целую неделю после появления данного видео запоздал с его просмотром.
Если кратко, то автор сделал базовое ядро операционки, подключил к ней кодовый агент и сделал интерфейс похожий на windows xp. Когда пользователь запускает любое приложение и пытается им пользоваться кодовый агент генерирует интерфейс и содержимое на лету, придумывая по ходу дизайн и контент, на презентации хорошо видно как это работает. К сожалению игры не были показаны, но с простыми приложениями агент справляется, чувствует вайб нулевых.
Посмотреть видео тут, после 9й техническая часть.
🔥6👍1
Хабр
У вайбкода два пути: Code-подписка и API
Последнее время гоняю разные кодовые агенты во всех позах и форматах на моём домашнем *Claw-подобном харнес Coddy Agent , практикую как интеграции разных кодовых агентов и апишек в агента для...
Опубликовал на Хабр небольшой обзор "У вайбкода два пути: Code-подписка и API" на тему стоимости подписок на разные кодовые агенты и тарифов агрегаторов моделей.
Всеми агентами и агрегаторами мне доводилось пользоваться, так что что циферки не просто агентом нашёл, но выстарадал, тут всё честно.
#МесяцАгентности
Всеми агентами и агрегаторами мне доводилось пользоваться, так что что циферки не просто агентом нашёл, но выстарадал, тут всё честно.
#МесяцАгентности
🔥19👍7👎3
Pavel Zloi
Вел вел вел
Какая милота:
https://www.anthropic.com/news/fable-mythos-access
Странно, что так рано начали шумиху разогревать, так как выход на IPO в районе октября должен быть.
https://www.anthropic.com/news/fable-mythos-access
Странно, что так рано начали шумиху разогревать, так как выход на IPO в районе октября должен быть.
❤4
Эпоха дешёвого AI походу того, тютю
В апреле я писал, что цены на модели будут расти по мере того как бизнес всё сильнее и сильнее будет начинать зависеть от агентов и языковых моделей. И вот июнь похоже подтверждает мою гипотезу пачкой новостей. Как по мне слишком быстро всё это происходит, я полагал что сильный рост цен будет не раньше 27го года, но возможно то что мы сейчас наблюдаем - только цветочки.
Те самые новости
Anthropic с 15 июня выводит programmatic-нагрузку в отдельный пул Agent SDK credits. Pro за $20 получает $20 кредитов, Max 20x - $200. Чат и Claude Code в терминале остаются в подписке, а вот
OpenAI тоже крутила тарифную сетку, только раньше. Со 2 апреля Codex у Plus, Pro и Business перешёл с биллинга "за сообщение" на списание по токенам. Business seat подешевел с $25 до $20, зато тяжёлый agentic usage теперь ест API credits внутри подписки. "Сколько угодно за фикс" закончилось. С 23 апреля то же добрали до Enterprise. OpenAI сама оценивает Codex в $100-200 на разработчика в месяц при активном использовании, разброс огромный.
GitHub Copilot с 1 июня перешёл на usage-based billing. Цена Pro не изменилась ($10), но теперь это $10 GitHub AI Credits, которые жрёт каждый токен в чате и agent mode. Быстрый вопрос и многочасовая автономная сессия раньше стоили одинаково, GitHub это терпел, теперь нет. Автокомплит по-прежнему безлимитный, зато fallback на дешёвую модельку после исчерпания квоты убрали.
На фоне этого DeepSeek пошёл в другую сторону, модель V4-Pro вышла в апреле по $1.74/$3.48 за 1M, а позже скидку 75% сделали постоянной - сейчас $0.435/$0.87. Flash по-прежнему $0.14/$0.28. Китайцы давят ценой, пока западные режут безлимиты.
Ну а Qwen наоборот закрыл Coding Plan Lite для новых подписчиков 20 марта, свежему аккаунту остаётся Pro за $50/мес. Старые на Lite продлевают, но дешёвый вход в их экосистему для новичков исчез. Coding Plan вообще уезжает в Token Plan.
Теперь про Fable 5
9 июня Anthropic выпустила топовую модель для всех подписчиков, при этом она топовая не только по бенчмаркам, но и по факту, хотя местами любила срезать острые углы.
Спустя пару дней, 12 июня доступ к Fable был закрыт для всех пользователей, из-за экспортных ограничений правительства США. Точнее там более занятная формулировка: моделью нельзя пользоваться иностранным гражданам, внутри или за пределами страны.
У меня есть несколько гипотез почему так произошло, но самая вероятная на мой взгляд в том, что последние два года боссы ИИ-компаний, в том числе и Амодей, рассказывали страшилки про агентов и нейросети, способные взломать что угодно и выйти за пределы песочницы, и просили государство срочно начать регулировать сферу. И вот, когда желаемое стало реальностью, что-то как-то приуныли.
Чтобы не терять прибыль, полагаю Anthropic всё же добавят валидацию профилей пользователей, что-то типа сканирования лица на фоне паспорта как у "анонимных" криптобирж, учётки Apple или банков. Это в свою очередь приведёт к искусственной монополизации из-за замыкания на жителей Штатов и сокращению пользовательской базы (и конечно же созданию неофициального рынка валидированных профилей). В результате чего Anthropic придётся поднимать цены, а вслед за Anthropic потянутся и все остальные.
Резюмируя
Если сложить всё это, картина получается прелюбопытнейшая. Вендоры изо всех сил делают вид, что больше не могут "субсидировать" agentic-нагрузку из фиксированной подписки за $10-200. Бесконечные циклы с tool calling, ретраями, длинным контекстом и reasoning якобы утилизируют GPU так, что экономика ломается. Прибавим сюда госрегулирование и насаждение искусственных монополий.
Что будет дальше?
Подписочная модель никуда не денется, но "заплатил $20 и забыл" для агентов вероятно умрёт. Скорее всего будет гибрид - фикс за чат и IDE, отдельный счётчик за agentic usage. SotA не подорожает номинально в API, просто перестанет поставляться по подписке. На практике счёт вырастет, потому что agentic loop генерирует в разы больше токенов чем agentic driven development (в смысле с человеком на контроле).
Все ли останутся на SotA? Маловероятно. Уже сейчас DeepSeek Flash - $0.14/$0.28 за 1M, MiMo - $0.14/$0.28, Kimi K2 - около $1/$4. Китайский API-first стек выигрывает ровно в этот момент, когда западные вендоры закручивают гайки на подписках. Я это разбирал подробно в обзоре на Хабр.
Компании будут тратить на AI больше, потому что встроят агентов в процессы раньше чем поймут риски, но уже успеют сократить экспертов и инженеров, а потом обнаружат что месячный расход на токены сравним с зарплатным фондом одного мида. Компании воспримут рост цен как операционную боль, отказываться уже поздно. Именно это я наблюдал на лекции, где руководитель с техническим бэкграундом после демо Claude Code решил что "инженеры больше не нужны".
Что делать?
1. Считать деньги заранее, это легко сделать, берём типовые агентные задачи, считаем расход за неделю, закладываем месячный рост в районе 5-10%.
2. Ставить жёсткие лимиты на расходы в конфиге харнеса, ну и в зависимости от расхода поднимать данные лимиты.
3. Пробовать китайские и отечественные аналоги, они скорее всего будут слабее, но как по мне лучше слабая модель, чем остановка бизнеса.
4. Начать уже наконец собирать фолбэк на on-premise моделях на своём железе.
Если кажется что уже дорого - ну, я предупреждал. Дешёвым останется либо аккуратная работа с лимитами, либо отечественный или китайский API, либо своё железо. Аттракцион за $20 судя по всему доживает свой век. Кстати рекомендую почитать про Токеномику.
Пишите в комментариях сколько у вас уходит на AI в месяц и на чём режете расходы, интересно сравнить цифры.
В апреле я писал, что цены на модели будут расти по мере того как бизнес всё сильнее и сильнее будет начинать зависеть от агентов и языковых моделей. И вот июнь похоже подтверждает мою гипотезу пачкой новостей. Как по мне слишком быстро всё это происходит, я полагал что сильный рост цен будет не раньше 27го года, но возможно то что мы сейчас наблюдаем - только цветочки.
Те самые новости
Anthropic с 15 июня выводит programmatic-нагрузку в отдельный пул Agent SDK credits. Pro за $20 получает $20 кредитов, Max 20x - $200. Чат и Claude Code в терминале остаются в подписке, а вот
claude -p, CI, сторонние харнесы и всё что крутится в agent loop - уже по API-тарифам внутри этого пула. Кредиты не копятся, перерасход только если включить extra usage. До этого Anthropic запретила OAuth от consumer-подписок в OpenClaw и прочих сторонних агентах, а в апреле usage из харнесов уехал в extra usage.OpenAI тоже крутила тарифную сетку, только раньше. Со 2 апреля Codex у Plus, Pro и Business перешёл с биллинга "за сообщение" на списание по токенам. Business seat подешевел с $25 до $20, зато тяжёлый agentic usage теперь ест API credits внутри подписки. "Сколько угодно за фикс" закончилось. С 23 апреля то же добрали до Enterprise. OpenAI сама оценивает Codex в $100-200 на разработчика в месяц при активном использовании, разброс огромный.
GitHub Copilot с 1 июня перешёл на usage-based billing. Цена Pro не изменилась ($10), но теперь это $10 GitHub AI Credits, которые жрёт каждый токен в чате и agent mode. Быстрый вопрос и многочасовая автономная сессия раньше стоили одинаково, GitHub это терпел, теперь нет. Автокомплит по-прежнему безлимитный, зато fallback на дешёвую модельку после исчерпания квоты убрали.
На фоне этого DeepSeek пошёл в другую сторону, модель V4-Pro вышла в апреле по $1.74/$3.48 за 1M, а позже скидку 75% сделали постоянной - сейчас $0.435/$0.87. Flash по-прежнему $0.14/$0.28. Китайцы давят ценой, пока западные режут безлимиты.
Ну а Qwen наоборот закрыл Coding Plan Lite для новых подписчиков 20 марта, свежему аккаунту остаётся Pro за $50/мес. Старые на Lite продлевают, но дешёвый вход в их экосистему для новичков исчез. Coding Plan вообще уезжает в Token Plan.
Теперь про Fable 5
9 июня Anthropic выпустила топовую модель для всех подписчиков, при этом она топовая не только по бенчмаркам, но и по факту, хотя местами любила срезать острые углы.
Спустя пару дней, 12 июня доступ к Fable был закрыт для всех пользователей, из-за экспортных ограничений правительства США. Точнее там более занятная формулировка: моделью нельзя пользоваться иностранным гражданам, внутри или за пределами страны.
У меня есть несколько гипотез почему так произошло, но самая вероятная на мой взгляд в том, что последние два года боссы ИИ-компаний, в том числе и Амодей, рассказывали страшилки про агентов и нейросети, способные взломать что угодно и выйти за пределы песочницы, и просили государство срочно начать регулировать сферу. И вот, когда желаемое стало реальностью, что-то как-то приуныли.
Чтобы не терять прибыль, полагаю Anthropic всё же добавят валидацию профилей пользователей, что-то типа сканирования лица на фоне паспорта как у "анонимных" криптобирж, учётки Apple или банков. Это в свою очередь приведёт к искусственной монополизации из-за замыкания на жителей Штатов и сокращению пользовательской базы (и конечно же созданию неофициального рынка валидированных профилей). В результате чего Anthropic придётся поднимать цены, а вслед за Anthropic потянутся и все остальные.
Резюмируя
Если сложить всё это, картина получается прелюбопытнейшая. Вендоры изо всех сил делают вид, что больше не могут "субсидировать" agentic-нагрузку из фиксированной подписки за $10-200. Бесконечные циклы с tool calling, ретраями, длинным контекстом и reasoning якобы утилизируют GPU так, что экономика ломается. Прибавим сюда госрегулирование и насаждение искусственных монополий.
Что будет дальше?
Подписочная модель никуда не денется, но "заплатил $20 и забыл" для агентов вероятно умрёт. Скорее всего будет гибрид - фикс за чат и IDE, отдельный счётчик за agentic usage. SotA не подорожает номинально в API, просто перестанет поставляться по подписке. На практике счёт вырастет, потому что agentic loop генерирует в разы больше токенов чем agentic driven development (в смысле с человеком на контроле).
Все ли останутся на SotA? Маловероятно. Уже сейчас DeepSeek Flash - $0.14/$0.28 за 1M, MiMo - $0.14/$0.28, Kimi K2 - около $1/$4. Китайский API-first стек выигрывает ровно в этот момент, когда западные вендоры закручивают гайки на подписках. Я это разбирал подробно в обзоре на Хабр.
Компании будут тратить на AI больше, потому что встроят агентов в процессы раньше чем поймут риски, но уже успеют сократить экспертов и инженеров, а потом обнаружат что месячный расход на токены сравним с зарплатным фондом одного мида. Компании воспримут рост цен как операционную боль, отказываться уже поздно. Именно это я наблюдал на лекции, где руководитель с техническим бэкграундом после демо Claude Code решил что "инженеры больше не нужны".
Что делать?
1. Считать деньги заранее, это легко сделать, берём типовые агентные задачи, считаем расход за неделю, закладываем месячный рост в районе 5-10%.
2. Ставить жёсткие лимиты на расходы в конфиге харнеса, ну и в зависимости от расхода поднимать данные лимиты.
3. Пробовать китайские и отечественные аналоги, они скорее всего будут слабее, но как по мне лучше слабая модель, чем остановка бизнеса.
4. Начать уже наконец собирать фолбэк на on-premise моделях на своём железе.
Если кажется что уже дорого - ну, я предупреждал. Дешёвым останется либо аккуратная работа с лимитами, либо отечественный или китайский API, либо своё железо. Аттракцион за $20 судя по всему доживает свой век. Кстати рекомендую почитать про Токеномику.
Пишите в комментариях сколько у вас уходит на AI в месяц и на чём режете расходы, интересно сравнить цифры.
1🤡20👍19❤6😭5🥱4🔥3👏1🤣1