Pavel Zloi
3.82K subscribers
691 photos
67 videos
2 files
985 links
директор ИИ · инженер‑интегратор
@eprogrammist | https://github.com/EvilFreelancer

20 лет в IT
∈ 10 лет в разработке
∈ 3 года в ML/AI
∈ 1 год - вайбмастер

Бусти:
https://boosty.to/evilfreelancer

Пожертвования:
https://pay.cloudtips.ru/p/937f48ac
Download Telegram
Forwarded from Dealer.AI
Капибары на службе ИИ найма.

Если вы видите на этом изображении резюме капибару, похвалите себя и выдайте оффер 🤩

В эксперименте выше ребятки запилили шуточное резюме, перемежая описание ухода за капибарами с реальными скиллами. Лучший навык был, разумеется "чесать пузики капибарам"😜


Результаты размещения CV поразили даже авторов.

Ключевая статистика за неделю:

1. Отклики и просмотры. При 100 отправленных резюме они получили 240 просмотров.
2. Приглашения. Рекордные 40 приглашений на собеседования, причём лишь пара человек заметили подвох.
3. Нехватка времени. HR-специалисты были настолько активны, что автору пришлось вручную отправлять автоматические отказы с пометкой "резюме уже не актуально". 😁

Делаем выводы - современные системы найма ATS и ИИ-фильтры отлично атакуются при помощи инъекций. 🚬

Адекватные резюме реальных специалистов часто отсеиваются, в то время как откровенно шуточное, но "оптимизированное" резюме проходит все этапы. Поэтому, ребятки, имейте при себе пару AI-native резюмешек под алгоритмы с ИИ. 👍

#meme
Please open Telegram to view this post
VIEW IN TELEGRAM
😁16
Как согласовать агенты Cursor и ClaudeCode в одном проекте

Когда начинаешь работать с несколькими агентами в одном проекте, быстро упираешься в одну раздражающую вещь: у каждого агента своя папка с правилами, и они ничего не знают друг о друге.

В Cursor правила лежат в .cursor/rules/*.mdc (читаем про Cursor Rules), а Claude Code берёт их из.claude/rules/*.md (читаем про Claude Rules), структура там и сям плюс минус похожая, но вот формат немного отличается.

Эксперименты провожу на кодовой базе coddy-agent (это мой проект, Go-харнесс поверх ACP), начинал я его на Cursor с одним лишь AGENTS, а в мае добавил DESIGN и .cursor/rules/, там описаны: архитектура, кодстайл, тестирование, HTTP-слой, порядок реализации. Cursor без лишнего тупняка их подхватывал, агент понимал проект, не лез куда не надо и сразу начинал пилить фичи.

Чуть больше недели назад оплатил себе подписку на Claude Code, и обнаружил, что он эти правила не видит, .cursor/rules/ клод старательно игнорирует и лезет только когда я прямо прошу его посмотреть. Каждый раз приходилось объяснять одно и то же: слои, куда не импортировать, как прогонять тесты, что OpenAPI надо синхронизировать и что тестить фичи UI в playwright mcp.

Решение проблемы очевидное, надо держать оба набора под каждый агент в репозитории, намедни добавил .claude/rules/ с почти полной копией текста правил курсора, но адаптированными под формат клода (paths: вместо globs:, .md вместо .mdc).

Получилось так:
.cursor/rules/
architecture.mdc
workflow.mdc
testing.mdc
...

.claude/rules/
architecture.md
workflow.md
testing.md
...

А чтобы агенты не забывали друг о друге в workflow.mdc добавил явное напоминание: если меняешь правило, не забудь синхронизировать в обе папки.

Итого практика, которая у меня сложилась:
1. Пишешь правила один раз в том формате, который удобен (я начал с Cursor)
2. При изменении синхронизируешь вторую папку (происходит копипаста с заменой метадаты)
3. Оба набора коммитаем в репо

Немного костыльно, но зато оба агента работают с одним и тем же контекстом, не надо объяснять проект с нуля при смене инструмента.

#МесяцАгентности
9👍6👎3
Занятный факт, в Cursor 3.7 прокачали Design Mode (это когда во встроенном браузере запускаем приложение, эдакий playwright встроенный в ide), теперь можно вместо скриншотов просто мышкой через UI потыкать области в которые требуется внести правки, описать что сделать и отправить агенту.
13
Какое жаргонное название OpenAI вы чаще всего используете или встречаете на просторах этих ваших интернетов?
Final Results
26%
клозеды
51%
"open"AI
4%
опята
12%
дефолт
12%
Свой вариант в комментариях
😴3🔥2
Что из этого вы использовали/встречали чаще всего?
Final Results
22%
ants
20%
трупики
36%
жадины
12%
извиняющиеся
24%
Свой вариант в комментариях
😁4👎1🥴1
Много работаю с моделями Antropic и OpenAI, неоднократно замечал проседание качества работы в будние дни в зависимости от времени.

Утром обычно норм, но вот после обеда агенты будто подтупливать начинают всё чаще, плюс лимиты быстрее уходят. Пошерстил по сети и форумам, есть отдельные комментарии что что-то такое у разных людей бывает, но официально вроде как не подтверждено, исследований тоже не попадалось больших.

Короче решил составить себе памятку с расписанием о том когда лучше всего гонять агентов, надеюсь и вам пригодится.

#МесяцАгентности
🔥22😁71😢1
This media is not supported in your browser
VIEW IN TELEGRAM
В чем вайбкодить, брат? #meme
😁47🤮3💩2🤣2🗿1
Пару дней тестил и готовил для NeuralDeep возможность регистрироваться через почтовый ящик, в качестве почтового сервера рассматривал несколько разных вариантов, но больше всего понравился on-premise сервер (а вы знаете как я обожаю софт который работает на моём железе и не лезет в облака) под названием Stalwart.

У сервера есть ряд фичей, которых нет у классики и конкурентов, прежде всего это один Docker-образ, то есть берём и запускаем, плюс есть нативная интеграция в traefik, что очень удобно для генерации автоматических сертификатов, есть апишка для менеджмента юзеров, ну и конечно же админка тоже есть. Чтобы настроить всю эту историю достаточно запустить контейнер, открыть порты, потом через DNS добавить записи.

Короче рекомендую.
👍10🔥9❤‍🔥1🥴1
Pavel Zloi
Claude Mythos это самая мощная модель-хакер или самый дорогой маркетинговый миф в истории ИИ? Anthropic анонсировала модель, которая находит zero-day во всех ОС и браузерах, ломает чруты и пишет эксплойты на раз-два. Рынок кибербезопасности дрогнул, правительства…
Прочёл "Anthropic готовится представить коммерческую версию Mythos" на Хабр.

Возвращаясь к моему прошлому посту на Boosty (кстати подписывайтесь чтобы поддержать моё творчество) про Mythos, в конце того поста я написал:
PPS. Если через полгода Anthropic вдруг выпустит Mythos в публичный доступ без существенных изменений - знайте, что "опасность для общества" оказалась не страшнее очередного тюна квена, а если так и останется за семью печатями - то это вероятно будет ещё одно подтверждение тезиса, миф существует лишь до тех пор, пока его не проверят профильные специалисты используя научный метод.

И судя по всему я оказался прав, не такой уж и страшный походу миф этот.

PS. После релиза предполагаю мы скорее всего узнаем, что это всё таки был harness с ИБ-базами, но не модель.
👎7🔥5💯3👍21🎉1🤡1
Занятный пример LLM-инъекции в данном посте описан.

Данный приём был использован против анализа кода большими языковыми моделями, авторы просто добавили в комментарии и документацию упоминания биологического и ядерного оружия и у модели проводящей аудит начали срабатывают защитные механизмы.

Как следствие проверяющая система не смотрит на вредоносный код создавая тем самым белые пятна.
😁24👍5
VibeOS - The world's first hallucinated operating system

Первая в мире операционная система состоящая из галлюцинации и AI слопа, которые генерируются в реальном времени, удивлён как я на целую неделю после появления данного видео запоздал с его просмотром.

Если кратко, то автор сделал базовое ядро операционки, подключил к ней кодовый агент и сделал интерфейс похожий на windows xp. Когда пользователь запускает любое приложение и пытается им пользоваться кодовый агент генерирует интерфейс и содержимое на лету, придумывая по ходу дизайн и контент, на презентации хорошо видно как это работает. К сожалению игры не были показаны, но с простыми приложениями агент справляется, чувствует вайб нулевых.

Посмотреть видео тут, после 9й техническая часть.
🔥6👍1
У вайбкода два пути: Code-подписка и API
11😁8💯3
Опубликовал на Хабр небольшой обзор "У вайбкода два пути: Code-подписка и API" на тему стоимости подписок на разные кодовые агенты и тарифов агрегаторов моделей.

Всеми агентами и агрегаторами мне доводилось пользоваться, так что что циферки не просто агентом нашёл, но выстарадал, тут всё честно.

#МесяцАгентности
🔥19👍7👎3
Pavel Zloi
Вел вел вел
Какая милота:
https://www.anthropic.com/news/fable-mythos-access

Странно, что так рано начали шумиху разогревать, так как выход на IPO в районе октября должен быть.
4
Эпоха дешёвого AI походу того, тютю

В апреле я писал, что цены на модели будут расти по мере того как бизнес всё сильнее и сильнее будет начинать зависеть от агентов и языковых моделей. И вот июнь похоже подтверждает мою гипотезу пачкой новостей. Как по мне слишком быстро всё это происходит, я полагал что сильный рост цен будет не раньше 27го года, но возможно то что мы сейчас наблюдаем - только цветочки.


Те самые новости

Anthropic с 15 июня выводит programmatic-нагрузку в отдельный пул Agent SDK credits. Pro за $20 получает $20 кредитов, Max 20x - $200. Чат и Claude Code в терминале остаются в подписке, а вот claude -p, CI, сторонние харнесы и всё что крутится в agent loop - уже по API-тарифам внутри этого пула. Кредиты не копятся, перерасход только если включить extra usage. До этого Anthropic запретила OAuth от consumer-подписок в OpenClaw и прочих сторонних агентах, а в апреле usage из харнесов уехал в extra usage.

OpenAI тоже крутила тарифную сетку, только раньше. Со 2 апреля Codex у Plus, Pro и Business перешёл с биллинга "за сообщение" на списание по токенам. Business seat подешевел с $25 до $20, зато тяжёлый agentic usage теперь ест API credits внутри подписки. "Сколько угодно за фикс" закончилось. С 23 апреля то же добрали до Enterprise. OpenAI сама оценивает Codex в $100-200 на разработчика в месяц при активном использовании, разброс огромный.

GitHub Copilot с 1 июня перешёл на usage-based billing. Цена Pro не изменилась ($10), но теперь это $10 GitHub AI Credits, которые жрёт каждый токен в чате и agent mode. Быстрый вопрос и многочасовая автономная сессия раньше стоили одинаково, GitHub это терпел, теперь нет. Автокомплит по-прежнему безлимитный, зато fallback на дешёвую модельку после исчерпания квоты убрали.

На фоне этого DeepSeek пошёл в другую сторону, модель V4-Pro вышла в апреле по $1.74/$3.48 за 1M, а позже скидку 75% сделали постоянной - сейчас $0.435/$0.87. Flash по-прежнему $0.14/$0.28. Китайцы давят ценой, пока западные режут безлимиты.

Ну а Qwen наоборот закрыл Coding Plan Lite для новых подписчиков 20 марта, свежему аккаунту остаётся Pro за $50/мес. Старые на Lite продлевают, но дешёвый вход в их экосистему для новичков исчез. Coding Plan вообще уезжает в Token Plan.


Теперь про Fable 5

9 июня Anthropic выпустила топовую модель для всех подписчиков, при этом она топовая не только по бенчмаркам, но и по факту, хотя местами любила срезать острые углы.

Спустя пару дней, 12 июня доступ к Fable был закрыт для всех пользователей, из-за экспортных ограничений правительства США. Точнее там более занятная формулировка: моделью нельзя пользоваться иностранным гражданам, внутри или за пределами страны.

У меня есть несколько гипотез почему так произошло, но самая вероятная на мой взгляд в том, что последние два года боссы ИИ-компаний, в том числе и Амодей, рассказывали страшилки про агентов и нейросети, способные взломать что угодно и выйти за пределы песочницы, и просили государство срочно начать регулировать сферу. И вот, когда желаемое стало реальностью, что-то как-то приуныли.

Чтобы не терять прибыль, полагаю Anthropic всё же добавят валидацию профилей пользователей, что-то типа сканирования лица на фоне паспорта как у "анонимных" криптобирж, учётки Apple или банков. Это в свою очередь приведёт к искусственной монополизации из-за замыкания на жителей Штатов и сокращению пользовательской базы (и конечно же созданию неофициального рынка валидированных профилей). В результате чего Anthropic придётся поднимать цены, а вслед за Anthropic потянутся и все остальные.


Резюмируя

Если сложить всё это, картина получается прелюбопытнейшая. Вендоры изо всех сил делают вид, что больше не могут "субсидировать" agentic-нагрузку из фиксированной подписки за $10-200. Бесконечные циклы с tool calling, ретраями, длинным контекстом и reasoning якобы утилизируют GPU так, что экономика ломается. Прибавим сюда госрегулирование и насаждение искусственных монополий.


Что будет дальше?

Подписочная модель никуда не денется, но "заплатил $20 и забыл" для агентов вероятно умрёт. Скорее всего будет гибрид - фикс за чат и IDE, отдельный счётчик за agentic usage. SotA не подорожает номинально в API, просто перестанет поставляться по подписке. На практике счёт вырастет, потому что agentic loop генерирует в разы больше токенов чем agentic driven development (в смысле с человеком на контроле).

Все ли останутся на SotA? Маловероятно. Уже сейчас DeepSeek Flash - $0.14/$0.28 за 1M, MiMo - $0.14/$0.28, Kimi K2 - около $1/$4. Китайский API-first стек выигрывает ровно в этот момент, когда западные вендоры закручивают гайки на подписках. Я это разбирал подробно в обзоре на Хабр.

Компании будут тратить на AI больше, потому что встроят агентов в процессы раньше чем поймут риски, но уже успеют сократить экспертов и инженеров, а потом обнаружат что месячный расход на токены сравним с зарплатным фондом одного мида. Компании воспримут рост цен как операционную боль, отказываться уже поздно. Именно это я наблюдал на лекции, где руководитель с техническим бэкграундом после демо Claude Code решил что "инженеры больше не нужны".


Что делать?

1. Считать деньги заранее, это легко сделать, берём типовые агентные задачи, считаем расход за неделю, закладываем месячный рост в районе 5-10%.

2. Ставить жёсткие лимиты на расходы в конфиге харнеса, ну и в зависимости от расхода поднимать данные лимиты.

3. Пробовать китайские и отечественные аналоги, они скорее всего будут слабее, но как по мне лучше слабая модель, чем остановка бизнеса.

4. Начать уже наконец собирать фолбэк на on-premise моделях на своём железе.

Если кажется что уже дорого - ну, я предупреждал. Дешёвым останется либо аккуратная работа с лимитами, либо отечественный или китайский API, либо своё железо. Аттракцион за $20 судя по всему доживает свой век. Кстати рекомендую почитать про Токеномику.

Пишите в комментариях сколько у вас уходит на AI в месяц и на чём режете расходы, интересно сравнить цифры.
1🤡20👍196😭5🥱4🔥3👏1🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
Так ну если на мои решения снимают уже рилсы, и сами, без приглашения, значит мы точно что-то правильное делаем с вами! 🔥


https://www.instagram.com/reel/DZfcqCBoaMA/?igsh=MWx3ajIzY3FmbDF1Nw==

А мы с вами не забываем база скиллов живет тут

https://neuraldeep.ru/skills
Please open Telegram to view this post
VIEW IN TELEGRAM
20🤡7🔥2🤮2💩2👍1
Мысль про дорожающие токены фронтирных моделей.

Думаю, мы скоро увидим процессы, когда компании будут судиться с сотрудниками за инди-софт, созданный на токены компании.
🥴4👍1
Forwarded from Air ~ AI
Намечается новый спор между исполнителем и заказчиком: кто заберет себе профит от внедрения ИИ

Недавно в переговорах заказчик уже откровенно попросил скидку на основании того, что: «Ну теперь же всё стало проще с первичным анализом, меньше человеко-часов, рутина автоматизирована...». Клиент хочет скидку на основании того, что ИИ упростил жизнь исполнителя, но не учитывает затраты времени и денег на внедрение этого ускорения

🧱Но, что есть, то есть - дорогой «первый слой» работы дешевеет, и клиенты будут отказываться платить за него как раньше. Кто-то уловил эту тенденцию и уже бесплатно или условно бесплатно предлагает первичный анализ. Например, платформа от консалтинговой компании WestMonroe.ai с бесплатными ИИ-агентами. Руководство пошло на такой шаг, так как сами признают, что стратегический анализ, стоивший миллионы, теперь имеет стоимость близкую к нулю

Такая откровенность подкупает клиентов. На этом фоне теневой ИИ в отношении клиентов становится опасным путем и может подорвать доверие и долгосрочное сотрудничество

Спасибо "Вайбкодингу" часть клиентов уже приходят подготовленные и им уже не нужно с нуля , а важнее - доведение до ума, проверка, усиление, безопасность, одним словом довести их сырой продукт до совершенства


👤Типы Заказчиков
(можно назвать по своему)

Запрещающие: ИИ под запретом из-за безопасности или регуляторики. Только закрытый контур.

Экономные: сразу ждут дисконт, так как «рутина стала быстрее»

Контролирующие: им важен процесс - какие инструменты применяли, кто проверял и кто утвердил финальную версию
____
Ценообразование будет строиться по принципу: рутина уйдет в фикс или станет бесплатной. Проверка и сложные действия (суды, переговоры, внедрение) подорожают. Суждение, критическое мышление и опыт как и прежде в цене

❗️Не рискуйте доверием клиентов, лучше описать клиенту, что сделала модель, что проверил человек и почему цена именно такая. Скоро будем в договоре это прописывать. Прецеденты уже есть. Есть тендеры, где одним из критериев выбора для заказчика выступает описание исполнителем связки ИИ с экспертами

Эпоха дорогой продажи «первого слоя» работы уходит. Деньги смещаются в опыт, доверие и способность довести решение до результата. Остальное клиент попытается забрать себе в виде скидки

👍4
Любопытная новость, для тех кому лень читать: SpaceX купили Cursor за $60 миллиардов.

Из этого можно сделать следующие выводы:
1. В курсор добавят грок (без цензуры и ограничений)
2. Развитие грок должно ускориться (так как его обучат на дистил датасетах собранных курсором за три года)
3. Формирование ядра монопольного рынка судя по всему завершено, итого у нас будут: Anthropic, OpenAI и SpaseX (так как f**k похоже самоустранись)
4. Поднимут цены, потом что 60 миллиардов надо как-то отбивать

Мне кажется, что одним из изменений которое затронет в будущем курсор - это отказ от моделей конкурентов, но не сразу, чтобы не распугать нород, а спустя пару месяцев, как грок дообучат.
🔥9🤡32😨21🥱1💊1