Промпт-инжиниринг не стал отдельным навыком, но промпты всё еще важны
Год назад: все должны стать промпт-инженерами
Сегодня: с нейронками можно общаться простыми словами и получать нужный результат, но есть нюанс
По большей части в работе я просто ставлю задачи обычным языком. Но иногда получается не то, что хочешь. И вот тут нужны промпты
Писать промпты самому не надо, нейронка с этим прекрасно справляется. Но проектировать их всё равно приходится, только немного иначе, по маркетинговому — через HADI-циклы
Выдвигаешь гипотезу «почему не работает так, как надо» или просишь это сделать нейронку → она пишет новый промпт → тестирует его на автономном агенте с чистым контекстом → приносит тебе данные → ты их анализируешь и делаешь выводы → выдвигаешь новую гипотезу
Такой круг может повторяться десятки раз, если задача сложная. На выходных планировал обучать open-source модель, потому что из коробки она не справлялась с моей задачей. Но для обучения нужен датасет. Готовил его тоже с нейронкой. И пока готовил, удалось так переработать промпт, что она и без обучения стала справляться😧
Год назад: все должны стать промпт-инженерами
Сегодня: с нейронками можно общаться простыми словами и получать нужный результат, но есть нюанс
По большей части в работе я просто ставлю задачи обычным языком. Но иногда получается не то, что хочешь. И вот тут нужны промпты
Писать промпты самому не надо, нейронка с этим прекрасно справляется. Но проектировать их всё равно приходится, только немного иначе, по маркетинговому — через HADI-циклы
Выдвигаешь гипотезу «почему не работает так, как надо» или просишь это сделать нейронку → она пишет новый промпт → тестирует его на автономном агенте с чистым контекстом → приносит тебе данные → ты их анализируешь и делаешь выводы → выдвигаешь новую гипотезу
Такой круг может повторяться десятки раз, если задача сложная. На выходных планировал обучать open-source модель, потому что из коробки она не справлялась с моей задачей. Но для обучения нужен датасет. Готовил его тоже с нейронкой. И пока готовил, удалось так переработать промпт, что она и без обучения стала справляться
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7💯4🎉1
Задолбал спам в комментариях, поэтому как сайд-проект попросил вчера Клода написать своего анти-спам бота
Собственно, он готов, теперь надо его проверить и цель этого поста — стриггерить ботов накидать свежего спама в комментарии. Ботик пока ничего не будет удалять, только складывать посты в базу с разметкой для проверки корректности его настроек
До этого стоял «Слежу за чатом бот», суть которого в том, что он стоит в ряде каналов и если один и тот же пользователь спамит в нескольких каналах, где его банят админы, то этот аккаунт потом автоматом банится везде. Было хорошо, но что-то он перестал справляться или ко мне ходят уникальные боты, которые не попадаются у других
У меня немного другое решение:
1. Проверка по ряду факторов и паттернам на основе датасета спама скриптом. Если есть триггер — спам
2. Если скрипт ничего не распознал — сообщение анализирует Gemini по API через Openrouter. Опять же, в основе промпт с паттернами, которые указывают на спам, но которые нельзя заложить в скрипт
3. Чтобы не тратить токены на все сообщения, бот игнорирует посты канала и сообщения автора канала
Но мне показалось этого мало, поэтому я добавил «белый список»: бот анализирует комментарии за несколько месяцев, составляет список пользователей и дает в веб-интерфейсе возможность выбрать кого добавить в список. Это явные люди, активное ядро комментаторов, сообщения которых мы тоже пропускаем, чтобы не тратить токены впустую
На ретроспективных тестах, по историческим данным о спаме в моём канале, точность распознавания получилась 98-99%. Т.е. из 100 спам сообщений мне вручную надо будет удалить всего 1 или 2 штуки. Если получится в реальности удержать этот уровень или довести до 100%, то будет великолепно
Собственно, он готов, теперь надо его проверить и цель этого поста — стриггерить ботов накидать свежего спама в комментарии. Ботик пока ничего не будет удалять, только складывать посты в базу с разметкой для проверки корректности его настроек
До этого стоял «Слежу за чатом бот», суть которого в том, что он стоит в ряде каналов и если один и тот же пользователь спамит в нескольких каналах, где его банят админы, то этот аккаунт потом автоматом банится везде. Было хорошо, но что-то он перестал справляться или ко мне ходят уникальные боты, которые не попадаются у других
У меня немного другое решение:
1. Проверка по ряду факторов и паттернам на основе датасета спама скриптом. Если есть триггер — спам
2. Если скрипт ничего не распознал — сообщение анализирует Gemini по API через Openrouter. Опять же, в основе промпт с паттернами, которые указывают на спам, но которые нельзя заложить в скрипт
3. Чтобы не тратить токены на все сообщения, бот игнорирует посты канала и сообщения автора канала
Но мне показалось этого мало, поэтому я добавил «белый список»: бот анализирует комментарии за несколько месяцев, составляет список пользователей и дает в веб-интерфейсе возможность выбрать кого добавить в список. Это явные люди, активное ядро комментаторов, сообщения которых мы тоже пропускаем, чтобы не тратить токены впустую
На ретроспективных тестах, по историческим данным о спаме в моём канале, точность распознавания получилась 98-99%. Т.е. из 100 спам сообщений мне вручную надо будет удалить всего 1 или 2 штуки. Если получится в реальности удержать этот уровень или довести до 100%, то будет великолепно
После небольшой калибровки ботик справился со всем спамом, что пришёл сегодня 😊
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8✍2
Мой флоу передачи контекста между сессиями в Claude Code
Раньше делал так: когда вижу, что в сессии потратили значительную долю контекстного окна, просил агента подготовить промт с контекстом для запуска новой или оформить это всё в файл. Что передавать нейронка каждый раз придумывала сама
В целом неплохой подход, но на больших задачах начинались проблемы. Например, делал что-то 3-4 сессии назад, деталей всех не помнишь сам, нейронка тоже уже не знает и делает ошибки. Решал эту проблему через ручной поиск той самой сессии или просил запустить агента и найти нужную инфу в логах. Когда сам искал, тратил кучу времени. Когда просил агента найти в логах, тратил тоже прилично времени плюс жёг лимиты
Как сейчас: hook + шаблон handoff сессии
В Claude Code можно настроить, чтобы определенные действия или сообщения активировали триггер. Настроили так, что каждое мое сообщение в чат проверяется питон-скриптом на вхождение ключевых слов по типу «дай промпт, промт для новой сессии, handoff». Если находит — агент получает сигнал. Выбрал хуки вместо правил, потому что агент забывает правила в длинных сессиях, а хук сработает всегда
Чтобы защититься от ложного срабатывания внедрил обязательный шаг — агент, когда увидел сигнал, спрашивает, действительно ли я хочу закончить сессию на этом моменте и подготовить всё для запуска новой. Только если я подтерждаю он делает коммит, пишет handoff и даёт двухстрочный промпт для запуска новой сессии
Чтобы всё работало одинаково хорошо, собрали с агентом шаблон, в котором описана структура и содержание файла:
Теперь контекст передается не в том виде, в каком агент в моменте придумал записать в промпт, а по регламенту, который учитывает все ключевые моменты
Отдельный кайф, что эти файлы теперь хранятся в отдельной папке и упорядочены по датам и тэгам. Если нужно поднять контекст какой-то предыдущей сессии, то его легко найти. Еще этот подход позволяет делать ретроспективный анализ всех этапов разработки за любой период
Если работаете как я раньше и периодически теряете контекст между сессиями, очень рекомендую скинуть этот пост своему Клоду и попросить внедрить такое же решение😐
Раньше делал так: когда вижу, что в сессии потратили значительную долю контекстного окна, просил агента подготовить промт с контекстом для запуска новой или оформить это всё в файл. Что передавать нейронка каждый раз придумывала сама
В целом неплохой подход, но на больших задачах начинались проблемы. Например, делал что-то 3-4 сессии назад, деталей всех не помнишь сам, нейронка тоже уже не знает и делает ошибки. Решал эту проблему через ручной поиск той самой сессии или просил запустить агента и найти нужную инфу в логах. Когда сам искал, тратил кучу времени. Когда просил агента найти в логах, тратил тоже прилично времени плюс жёг лимиты
Как сейчас: hook + шаблон handoff сессии
В Claude Code можно настроить, чтобы определенные действия или сообщения активировали триггер. Настроили так, что каждое мое сообщение в чат проверяется питон-скриптом на вхождение ключевых слов по типу «дай промпт, промт для новой сессии, handoff». Если находит — агент получает сигнал. Выбрал хуки вместо правил, потому что агент забывает правила в длинных сессиях, а хук сработает всегда
Чтобы защититься от ложного срабатывания внедрил обязательный шаг — агент, когда увидел сигнал, спрашивает, действительно ли я хочу закончить сессию на этом моменте и подготовить всё для запуска новой. Только если я подтерждаю он делает коммит, пишет handoff и даёт двухстрочный промпт для запуска новой сессии
Чтобы всё работало одинаково хорошо, собрали с агентом шаблон, в котором описана структура и содержание файла:
Frontmatter: date, branch, head_commit, previous_handoff, session_tag
TL;DR — 1-2 предложения
Что сделано — chronological с SHA
Key decisions — cross-cutting (per-feature идут в work/{feature}/decisions.md)
Что не сработало — rejected alternatives, dead ends (ценно как «что НЕ делать»)
Commits этой сессии — git log --oneline
Failures logged — refs на work/{feature}/logs/failures.md
Current state verification — набор команд для проверки HEAD и canon drift
Следующая сессия: 2-line activation prompt (copy-paste) + full state (порядок чтения canon, completed phases, invariants, варианты A/B, рекомендация, gotchas)
Known design debts — осознанный defer
Audit trail — pointers на tmp/ и forensic артефакты
Теперь контекст передается не в том виде, в каком агент в моменте придумал записать в промпт, а по регламенту, который учитывает все ключевые моменты
Отдельный кайф, что эти файлы теперь хранятся в отдельной папке и упорядочены по датам и тэгам. Если нужно поднять контекст какой-то предыдущей сессии, то его легко найти. Еще этот подход позволяет делать ретроспективный анализ всех этапов разработки за любой период
Если работаете как я раньше и периодически теряете контекст между сессиями, очень рекомендую скинуть этот пост своему Клоду и попросить внедрить такое же решение
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6✍4❤2👍2
Чем мне нравится конкурентная борьба за пользователя от AI компаний, так это постоянным дисконтом и сбросом лимитов
OpenAI за месяц сбрасывали лимиты кажется раза 4, но я к сожалению плачу за ChatGPT всего 20 долларов и пользуюсь им редко, поэтому эти бонусы проходят мимо меня
Anthropic не так щедры, но сейчас я обнаружил, что на двух аккаунтах сбросили лимиты на всё: и Claude Code, и Claude Design. Так что если у вас есть подписка и ранее вы всё сожгли, проверьте аккаунт😌
Надеюсь конкуренция и дальше будет их подталкивать на дотации, потому что сейчас все Pro и Max подписки за 20-200 долларов жутко убыточны. А сброс лимитов делает их убыточными вдвойне
OpenAI за месяц сбрасывали лимиты кажется раза 4, но я к сожалению плачу за ChatGPT всего 20 долларов и пользуюсь им редко, поэтому эти бонусы проходят мимо меня
Anthropic не так щедры, но сейчас я обнаружил, что на двух аккаунтах сбросили лимиты на всё: и Claude Code, и Claude Design. Так что если у вас есть подписка и ранее вы всё сожгли, проверьте аккаунт😌
Надеюсь конкуренция и дальше будет их подталкивать на дотации, потому что сейчас все Pro и Max подписки за 20-200 долларов жутко убыточны. А сброс лимитов делает их убыточными вдвойне
😍2
Объясни для чайника
Последние дни это мой самый частый промпт для Claude Opus 4.7. В сравнении с предыдущими версиями он слишком душный, сыпет терминами как прожженный разраб в курилке🙄
Но фраза универсальна на самом деле. В жизни тоже всегда уместна, когда что-то не понимаешь. Лучше спросить, чем делать вид, что всё понял
Последние дни это мой самый частый промпт для Claude Opus 4.7. В сравнении с предыдущими версиями он слишком душный, сыпет терминами как прожженный разраб в курилке
Но фраза универсальна на самом деле. В жизни тоже всегда уместна, когда что-то не понимаешь. Лучше спросить, чем делать вид, что всё понял
Please open Telegram to view this post
VIEW IN TELEGRAM
💯14
Media is too big
VIEW IN TELEGRAM
Из-за погоды провёл два дня без света и интернета как такового
Вчера вечером собрали с супругой вещи и уехали в соседнюю область к её родителям
Дорога была в лучших традициях фильмов про апокалипсис: почти все деревни и города во мраке, трасса завалена снегом и деревьями, на обочинах в кювете улетевшие с дороги фуры, 200 километров подряд нет связи
На видео отрезок дороги, который обычно проезжал со скоростью 140 км/ч
Бонусы:
1. Летняя резина и постоянный страх, что в любой момент трасса заледенеет, потому что чем дальше мы ехали, тем сугробы были всё больше
2. Возникший из полумрака здоровенный бобёр, который вальяжно переходил дорогу посреди моей полосы. Слосиным бобриным тестом машина на скорости 90 километров в час справилась, пострадали только нервные клетки пассажиров
Вот с таким видом ехал почти всю дорогу —😬
Опыт 10 из 10, всем советую
Вчера вечером собрали с супругой вещи и уехали в соседнюю область к её родителям
Дорога была в лучших традициях фильмов про апокалипсис: почти все деревни и города во мраке, трасса завалена снегом и деревьями, на обочинах в кювете улетевшие с дороги фуры, 200 километров подряд нет связи
На видео отрезок дороги, который обычно проезжал со скоростью 140 км/ч
Бонусы:
1. Летняя резина и постоянный страх, что в любой момент трасса заледенеет, потому что чем дальше мы ехали, тем сугробы были всё больше
2. Возникший из полумрака здоровенный бобёр, который вальяжно переходил дорогу посреди моей полосы. С
Вот с таким видом ехал почти всю дорогу —
Опыт 10 из 10, всем советую
Please open Telegram to view this post
VIEW IN TELEGRAM
🏆4☃3😱2❤1
Когда маркетолог играл в заголовки и проиграл Яндексу 🤭
Восход — крутые. И позиции в рейтингах у них топ. А вот рейтинг организации в 4.4 высоким не назовёшь и в паре с заголовком это прям грустно выглядит
Вопрос эффективности такой р/к тоже отдельный. Похоже на медийку через РСЯ, но как по мне, лучше бы конкретные кейсы рассказывали. Потому что услуги Восхода явно не для всех, а заголовок настолько абстрактный, что любой ипэшник с бюджетом в 50 тысяч рублей кликнет
Восход — крутые. И позиции в рейтингах у них топ. А вот рейтинг организации в 4.4 высоким не назовёшь и в паре с заголовком это прям грустно выглядит
Вопрос эффективности такой р/к тоже отдельный. Похоже на медийку через РСЯ, но как по мне, лучше бы конкретные кейсы рассказывали. Потому что услуги Восхода явно не для всех, а заголовок настолько абстрактный, что любой ипэшник с бюджетом в 50 тысяч рублей кликнет
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤8🔥1
Тут вот в Москве анонсируют белые списки на несколько дней
Это значит что сайты у бизнеса открываться с мобильного интернета не будут (а есть шанс, что и на домашнем белые списки выкатят)
Есть ли какие-то технические варианты обхода, по типу переезда сайта на хостинг от VK/Яндекса? А то «забавная» картина получается — реклама на доступных площадках отображается, а сайты по клику не открываются и так будет несколько дней
Это значит что сайты у бизнеса открываться с мобильного интернета не будут (а есть шанс, что и на домашнем белые списки выкатят)
Есть ли какие-то технические варианты обхода, по типу переезда сайта на хостинг от VK/Яндекса? А то «забавная» картина получается — реклама на доступных площадках отображается, а сайты по клику не открываются и так будет несколько дней
😭9❤1
Менеджер проектов в виде скилла для Клода😳
Запускаю в отдельной сессии, активирую скилл и агент собирает инфу о том, что было сделано, раскладывает по методологии по журналам и помогает мне оценить реальное состояние проекта
Собрал за вечер: описал что хочу, попросил поисследовать все подходы к управлению проектами в IT и в обычной жизни и собрать для меня список предложений, что стоит взять, что проигнорировать и как из этого набора собрать цельный процесс
Без этого скилла не получалось удержать в голове всё, что происходит в проекте и нейронка тоже тупила из-за объёма разрозненной информации. Теперь информация упорядочена и с ней можно нормально работать
Базовая архитектура и принципы работы на скриншоте
Запускаю в отдельной сессии, активирую скилл и агент собирает инфу о том, что было сделано, раскладывает по методологии по журналам и помогает мне оценить реальное состояние проекта
Собрал за вечер: описал что хочу, попросил поисследовать все подходы к управлению проектами в IT и в обычной жизни и собрать для меня список предложений, что стоит взять, что проигнорировать и как из этого набора собрать цельный процесс
Без этого скилла не получалось удержать в голове всё, что происходит в проекте и нейронка тоже тупила из-за объёма разрозненной информации. Теперь информация упорядочена и с ней можно нормально работать
Базовая архитектура и принципы работы на скриншоте
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥3🤔1
Дешевые LLM модели приносят больше вреда, чем пользы
Сейчас случайно поймал в одной из задач, что вместо Опуса субагент запустился на Хайку. Хайку это самая дешевая, тупая и быстрая модель у Клода, Опус самая дорогая, умная и медленная. По умолчанию я всегда работаю с Опусом
Агент делал аудит. Из 7 его находок 5 оказалось ложно-положительными. Т.е. Хайку нашел какие-то проблемы в документах, которых на самом деле не существует. И вроде бы запуск Хайку для этой задачи произошел ради экономии, но на деле на задачу ушло еще больше времени и лимитов из-за его косяков
На этот счет у меня для Клода прописано глобальное правило: Никогда не используй Хайку. И оно в целом помогало, субагенты никогда не запускались на этой модельке до сегодняшнего дня. Ну или я так думал. В Клоде есть встроенные агенты, настройки которых предопределены заранее и не следуют правилам проекта. Так вот оказалось, что по умолчанию один из них — Explore агент, который имеет права только на чтение файлов для быстрого исследования — запускается всегда на Хайку. И вот главный агент запустил его и я получил кучу ложных результатов в аудите, потому что тупая и дешевая модель сильно чаще галлюцинирует
Так вот, если используете нейронки, то всегда выбирайте самую мощную модель из доступных, даже если она быстрее жрёт лимиты в подписке. Выбор в сторону более дешевых даст вам кучу багов, ошибок и косяков, исправление которых потребует больше вложений, чем стоит использование нормальной модели со старта
Сейчас случайно поймал в одной из задач, что вместо Опуса субагент запустился на Хайку. Хайку это самая дешевая, тупая и быстрая модель у Клода, Опус самая дорогая, умная и медленная. По умолчанию я всегда работаю с Опусом
Агент делал аудит. Из 7 его находок 5 оказалось ложно-положительными. Т.е. Хайку нашел какие-то проблемы в документах, которых на самом деле не существует. И вроде бы запуск Хайку для этой задачи произошел ради экономии, но на деле на задачу ушло еще больше времени и лимитов из-за его косяков
На этот счет у меня для Клода прописано глобальное правило: Никогда не используй Хайку. И оно в целом помогало, субагенты никогда не запускались на этой модельке до сегодняшнего дня. Ну или я так думал. В Клоде есть встроенные агенты, настройки которых предопределены заранее и не следуют правилам проекта. Так вот оказалось, что по умолчанию один из них — Explore агент, который имеет права только на чтение файлов для быстрого исследования — запускается всегда на Хайку. И вот главный агент запустил его и я получил кучу ложных результатов в аудите, потому что тупая и дешевая модель сильно чаще галлюцинирует
Так вот, если используете нейронки, то всегда выбирайте самую мощную модель из доступных, даже если она быстрее жрёт лимиты в подписке. Выбор в сторону более дешевых даст вам кучу багов, ошибок и косяков, исправление которых потребует больше вложений, чем стоит использование нормальной модели со старта
👍4❤3✍1
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤10😁6
Наткнулся на стрим, как гуманоидный робот от Figure в реальном времени сортирует посылки — https://youtu.be/luU57hMhkak
Выглядит это всё как кадры из фантастического фильма, особенно когда на фоне другие роботы проходят
Залип на 5 минут, проникся тревожностью за будущее человечества, пошёл общаться с Клодом😐
Выглядит это всё как кадры из фантастического фильма, особенно когда на фоне другие роботы проходят
Залип на 5 минут, проникся тревожностью за будущее человечества, пошёл общаться с Клодом
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥1
4-й месяц строю свой маленький свечной заводик B2B SaaS с AI 😧
Кажется только ленивый в последние месяцы не думал о том, чтобы навайбкодить свой SaaS. Я не исключение, но мыслями не ограничился и пустился во все тяжкие
Первая идея была сделать свой сервис управления рекламой в телеграме, не на автоправилах, а с ML/AI оптимизацией кампаний. Если не выстрелит в рынок, то хотя бы для личных нужд пригодится. Пока проектировал архитектуру телеграм начали замедлять
Стал смотреть, что на рекламном рынке не заблокируют в ближайшее время. Остановился на Авито Рекламе: Авито в белых списках, рекламная платформа новая и быстро растёт
Что можно сделать около растущей рекламной платформы?
1. Свой кабинет-надстройку для более удобного управления рекламой
2. Spy-сервис для анализа рекламы конкурентов на площадке
Делать кабинет как основу продукта идея так себе, площадка развивается быстро и надстройка быстро потеряет актуальность. Остаётся spy-сервис — площадка новая, разведка конкурентов прям кстати
На рынке один spy-сервис уже появился. И по всем базовым пунктам — опыт аналогичных проектов, наличие разработчиков в команде, ресурсы на продвижение — мне с ними вообще никак не получится конкурировать
Но отсутствие опыта в разработке и наличие разработчиков в команде в целом можно нивелировать за счет нейросетей (тут айтишники уже звонят в дурку😁 ), поэтому я решил таки попробовать разработать проект в соло без опыта в айти, опираясь только на нейросети и свою насмотренность в дизайне и маркетинге
Что вы хотели бы узнать об этом безрассудном эксперименте в следующем посте?
Кажется только ленивый в последние месяцы не думал о том, чтобы навайбкодить свой SaaS. Я не исключение, но мыслями не ограничился и пустился во все тяжкие
Первая идея была сделать свой сервис управления рекламой в телеграме, не на автоправилах, а с ML/AI оптимизацией кампаний. Если не выстрелит в рынок, то хотя бы для личных нужд пригодится. Пока проектировал архитектуру телеграм начали замедлять
Стал смотреть, что на рекламном рынке не заблокируют в ближайшее время. Остановился на Авито Рекламе: Авито в белых списках, рекламная платформа новая и быстро растёт
Что можно сделать около растущей рекламной платформы?
1. Свой кабинет-надстройку для более удобного управления рекламой
2. Spy-сервис для анализа рекламы конкурентов на площадке
Делать кабинет как основу продукта идея так себе, площадка развивается быстро и надстройка быстро потеряет актуальность. Остаётся spy-сервис — площадка новая, разведка конкурентов прям кстати
На рынке один spy-сервис уже появился. И по всем базовым пунктам — опыт аналогичных проектов, наличие разработчиков в команде, ресурсы на продвижение — мне с ними вообще никак не получится конкурировать
Но отсутствие опыта в разработке и наличие разработчиков в команде в целом можно нивелировать за счет нейросетей (тут айтишники уже звонят в дурку
Что вы хотели бы узнать об этом безрассудном эксперименте в следующем посте?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8😁7⚡2👍1🤔1🗿1
Spy-сервису нужна база, смогу ли я вообще её собрать?
Кажется, что вот сайт Авито, зашел, видишь рекламу, собираешь, база копится, профит. Но руками десятки тысяч баннеров не собрать, значит нужна автоматизация через ботов
Посещения от ботов платформы не любят и всячески с ними борются. И тут я застрял: все попытки что-то спарсить заканчивались моментальным ограничением или баном аккаунта или IP. И нейронка не то чтобы давала дельные идеи, как с этим справится
У Авито, как оказалось, стоит система защиты от Qrator Labs. Как я понял, это лучший анти-бот сервис в стране, которым пользуется весь энтерпрайз. У них явно нормальный технический отдел и какой-то чувак с улицы обойти их защиту не сможет. Можно было бы на этом этапе пойти искать другую идею для стартапа
В попытке подобрать ключик я бился где-то месяц. Каждый день, с переходом в ночь, перебирал комбинации: прокси, подпись браузера, аккаунты, поведение, количество запросов. По началу не получалось добраться до сайта вообще, моих ботов сразу палили и вырубали. Потом удалось пробиться, но рекламу не видно. Окей, увидел рекламу, начал парсить и снова облом — 30 прокси улетели в бан за несколько минут
Через месяц удалось собрать комбинацию, которая позволила собирать рекламу и не ловить баны каждые 5 минут. Настроил парсер, начал наполнят базу, через 3 недели они что-то поменяли и у меня все прокси перестали доходить до сайта снова. Пришлось опять искать замену
С прокси вообще интересная история: половина провайдеров запрещает использовать прокси для парсера Авито (и только их), видимо настолько всё жестко с блокировками. Часть открыто об этом не пишет, но когда пытаешься зайти на Авито через этот прокси, то на уровне провайдера соединение обрывается. Т.е. ты купил прокси, начинаешь использовать и оказывается, что тебе нельзя на Авито, но об этом умолчали на сайте
Еще прокси надо много, иначе не собрать рекламу по всей стране. Хорошие прокси, которые разрешают парсить Авито, стоят очень дорого. Дешевые, что у меня были, сломались через 3 недели. Перебрав еще десяток провайдеров нашел нормальную подборку без запретов, пока держимся
На старте казалось, что Opus 4.6 умный, сейчас я его попрошу обойти защиту и сделать парсер, он переберет десятки комбинаций и сделает. На деле — комбинации он сам перебирает очень плохо, часто галлюцинирует и делает неверные выводы. Если бы я сам не анализировал, что повлияло на прохождение того или иного слоя защиты, то собрать парсер не вышло бы
В общем, парсеры работают, база наполняется. Без опыта разработки, вооружившись нейронкой, за месяц мне удалось обойти анти-бот защиту энтерпрайз уровня. Только вот собрать базу не равно сделать SaaS😍
Кажется, что вот сайт Авито, зашел, видишь рекламу, собираешь, база копится, профит. Но руками десятки тысяч баннеров не собрать, значит нужна автоматизация через ботов
Посещения от ботов платформы не любят и всячески с ними борются. И тут я застрял: все попытки что-то спарсить заканчивались моментальным ограничением или баном аккаунта или IP. И нейронка не то чтобы давала дельные идеи, как с этим справится
У Авито, как оказалось, стоит система защиты от Qrator Labs. Как я понял, это лучший анти-бот сервис в стране, которым пользуется весь энтерпрайз. У них явно нормальный технический отдел и какой-то чувак с улицы обойти их защиту не сможет. Можно было бы на этом этапе пойти искать другую идею для стартапа
В попытке подобрать ключик я бился где-то месяц. Каждый день, с переходом в ночь, перебирал комбинации: прокси, подпись браузера, аккаунты, поведение, количество запросов. По началу не получалось добраться до сайта вообще, моих ботов сразу палили и вырубали. Потом удалось пробиться, но рекламу не видно. Окей, увидел рекламу, начал парсить и снова облом — 30 прокси улетели в бан за несколько минут
Через месяц удалось собрать комбинацию, которая позволила собирать рекламу и не ловить баны каждые 5 минут. Настроил парсер, начал наполнят базу, через 3 недели они что-то поменяли и у меня все прокси перестали доходить до сайта снова. Пришлось опять искать замену
С прокси вообще интересная история: половина провайдеров запрещает использовать прокси для парсера Авито (и только их), видимо настолько всё жестко с блокировками. Часть открыто об этом не пишет, но когда пытаешься зайти на Авито через этот прокси, то на уровне провайдера соединение обрывается. Т.е. ты купил прокси, начинаешь использовать и оказывается, что тебе нельзя на Авито, но об этом умолчали на сайте
Еще прокси надо много, иначе не собрать рекламу по всей стране. Хорошие прокси, которые разрешают парсить Авито, стоят очень дорого. Дешевые, что у меня были, сломались через 3 недели. Перебрав еще десяток провайдеров нашел нормальную подборку без запретов, пока держимся
На старте казалось, что Opus 4.6 умный, сейчас я его попрошу обойти защиту и сделать парсер, он переберет десятки комбинаций и сделает. На деле — комбинации он сам перебирает очень плохо, часто галлюцинирует и делает неверные выводы. Если бы я сам не анализировал, что повлияло на прохождение того или иного слоя защиты, то собрать парсер не вышло бы
В общем, парсеры работают, база наполняется. Без опыта разработки, вооружившись нейронкой, за месяц мне удалось обойти анти-бот защиту энтерпрайз уровня. Только вот собрать базу не равно сделать SaaS
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9🤔2
В базе сейчас 4 972 рекламодателя и 52 974 баннера
У единственного аналогичного сервиса размер базы примерно в 12 раз меньше. Там что-то около 4 600 баннеров всего, даже меньше, чем у меня рекламодателей собрано
При том что там сильная команда и базу ребята собирают с января, а я с марта
У единственного аналогичного сервиса размер базы примерно в 12 раз меньше. Там что-то около 4 600 баннеров всего, даже меньше, чем у меня рекламодателей собрано
При том что там сильная команда и базу ребята собирают с января, а я с марта
🔥11
Не доверяйте AI-агентам писать документацию
Ситуация: провёл ряд экспериментов, написали с агентами рабочий код, попросил задокументировать что работает, что нет, чтобы можно было воспроизводить эти результаты в будущем системно. Открыл эти документы почитать, а там куча фактических ошибок и галлюцинаций
Циклы «аудит→фикс→аудит→фикс» силами агентов не помогли. С этого момента стал все документы проверять вручную и обсуждать с агентом любой непонятный момент. А потом еще прогонять тесты: запускаю агентов, которых прошу воспроизвести решение по документам, а затем отдельный агент сверяет результат с исходником, который документировали. Это занимает время, но по такой документации потом можно нормально воспроизвести результат
Предполагаю, что огромный объём галлюцинаций в таких задачах связан с тем, что в обучающих данных модели таких текстов не было и быть не могло, поэтому при формировании каждого нового слова в документе элемент рандома выше обычного
Ситуация: провёл ряд экспериментов, написали с агентами рабочий код, попросил задокументировать что работает, что нет, чтобы можно было воспроизводить эти результаты в будущем системно. Открыл эти документы почитать, а там куча фактических ошибок и галлюцинаций
Циклы «аудит→фикс→аудит→фикс» силами агентов не помогли. С этого момента стал все документы проверять вручную и обсуждать с агентом любой непонятный момент. А потом еще прогонять тесты: запускаю агентов, которых прошу воспроизвести решение по документам, а затем отдельный агент сверяет результат с исходником, который документировали. Это занимает время, но по такой документации потом можно нормально воспроизвести результат
Предполагаю, что огромный объём галлюцинаций в таких задачах связан с тем, что в обучающих данных модели таких текстов не было и быть не могло, поэтому при формировании каждого нового слова в документе элемент рандома выше обычного
🤔4👍3🌚1
Столкнулся в разработке с забавным термином, названным в честь птички канарейки — canary test/canary deployment. В двух словах, это первичные тесты малой кровью, чтобы заранее отловить и исправить все ошибки
Стало интересно причем тут канарейки, оказалось вот что:
На рубеже 19-20 веков ученый Джон Скотт Холдейн доказал, что угарный газ основная причина гибели шахтёров. И предложил брать в шахты для раннего обнаружения выбросов мелких животных
Остановились на канарейках: у них быстрый метаболизм + воздух дважды проходит через лёгкие, поэтому они задыхаются быстрее, чем человек. Да еще и сигнал хороший: птичка петь перестала — пора сваливать. С 1911 по 1986 год в Англии этот метод раннего улавливания опасных газов в шахтах был закреплен законодательно
Урок истории окончен, идите работать🌸
Стало интересно причем тут канарейки, оказалось вот что:
На рубеже 19-20 веков ученый Джон Скотт Холдейн доказал, что угарный газ основная причина гибели шахтёров. И предложил брать в шахты для раннего обнаружения выбросов мелких животных
Остановились на канарейках: у них быстрый метаболизм + воздух дважды проходит через лёгкие, поэтому они задыхаются быстрее, чем человек. Да еще и сигнал хороший: птичка петь перестала — пора сваливать. С 1911 по 1986 год в Англии этот метод раннего улавливания опасных газов в шахтах был закреплен законодательно
Урок истории окончен, идите работать
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9😢5❤2👀1🗿1