AI Security | Безопасный ИИ
69 subscribers
6 photos
1 video
7 links
Канал новостей по AI Security и обновлений по курсам AI Security на Stepik. Ссылка на курс: https://stepik.org/a/225332
Download Telegram
Media is too big
VIEW IN TELEGRAM
Всем привет!

В этом канале будем публиковать:
• новости курсов по AI Security на Stepik
• интересные новости и собственные наблюдения в области Security, Safety, Alignment LLM
2👍2🍌2
Привет, редтимеры! 🚩

В курсе открылся 3-й модуль про джейлбрейки.

Что внутри:
• социальные и технические джейлбрейки
• DAN
• 8 CTF-задач

✏️ Будем рады любому фидбеку от первопроходцев

P.S. На неделе будем выкладывать в канал доп. контент по джелбрейкам, на связи!
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥62👏2
Как и обещали, возвращаемся с контентом по джейлбрейкам.

🆕 Сегодня в программе статья на Хабр от @ivanich_spb с обзором исследования StrongReject.

TLDR: Не все джелбрейки одинаково полезны, многие из опубликованных взломов снижают "когнитивные" способности моделей.

Материал - топ, внутри комиксы от нанабананы, го читать! 🚽
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥32
⚡️ Opus 4.8 взломали через 7 минут после релиза 🤯

Исследователь узнал о выходе Claude Opus 4.8 не из официального анонса Anthropic, а от… своего же агента на Opus 4.7 👀

https://x.com/Machinelearrn/status/2060304235539911024

Агент сам засёк новый релиз, тут же попробовал jailbreak и доложил: новая модель пробивается с первой попытки.

Дальше - больше. По словам автора, агент уже автономно пошёл тестировать другие сценарии: социальная инженерия, фишинг, финансовые махинации, манипулятивные воронки и прочие запрещённые классы задач 🎭💉

Детали промптов тут не главное. Важен сам тектонический сдвиг: теперь модели могут не просто реагировать на атаки, а помогать искать слабые места у других моделей 🔍

Чем умнее становятся frontier-модели, тем мощнее становится и автоматизированный jailbreak-testing. Больше доменных знаний, лучше планирование, выше настойчивость - и больше шансов найти ту самую странную щель в safety-слое 🧠

Новый, довольно жёсткий стандарт для AI safety: модель нужно тестировать не только людьми, но и другими моделями, которые будут методично искать обходы быстрее, чем это успеют сделать живые пользователи.



Уже тестили 4.8? Делитесь мыслями в комментариях 👇🔥
🔥4👏1😁1
Привет, редтимеры! 🚩

В курсе открылся новый модуль с новым главным героем 🔥

Внутри:
• рассмотрим непрямые промпт-инъекции (атакуем не из чата, а через документы)
• будем атаковать разных агентов
• потренируемся строить модель уязвимостей агентских систем (threat model)
• И конечно, пособираем флаги 🚩


По прежнему ждём от вас фидбэк.

P.S.: Один из уроков модуля немного задерживается.
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍2🙏1
Всем привет! 🚩

В курсе открылся новый урок:

• сначала нужно будет провести разведку системы
• потом атаковать и всё сломать
• легко не будет, но у вас будет верный помощник в стане врага 😎

Го проходить и ждём обратную связь!

P.S.: на Stepik завтра заканчивается летняя распродажа, в которой участвует наш курс, если хотели кому-то порекомендовать - то самое время.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥43👍1👏1
Нашли где можно применить все техники с нашего курса на практике и залутать реальные $🤑

Го, редтимить! 🚩
👍1
Привет, Чемпионы! 🏆

🤖 AI Agent Security - Multi-Step Tool Attacks: Почувствуй себя хакером в мире LLM-агентов! 🎯

На Kaggle стартовало, пожалуй, самое долгожданное соревнование для специалистов по AI Safety и ИИ-безопасности. Организаторы не абы кто, а OpenAI, Google, IEEE и WCCI. Вместо привычного тюнинга бустингов или классификации картинок нам предлагают заняться алгоритмическим ред-тимингом и взломать умных ИИ-агентов, использующих внешние инструменты.

Это НЕ конкурс на написание единичных «джейлбрейков» вручную. Задача гораздо глубже: нужно написать автоматический алгоритм атаки, который заставит агента совершить цепочку деструктивных действий.

В чем суть задачи?
Современные агенты умеют читать файлы, лазить в интернет, отправлять email-ы и делать HTTP-запросы. Но что, если во входящем письме или на веб-странице спрятана инструкция, которая заставит агента прочитать secret.txt, вытащить оттуда SECRET_API_KEY и отправить его на сторонний сервер через http.post?

Ваш алгоритм (attack.py) будет помещен в Gym-style среду. Ему предстоит взаимодействовать с изолированным агентом (тестировать будут на GPT-OSS и Gemma 4), искать многошаговые уязвимости и выдавать воспроизводимые цепочки промптов, которые пробивают гардрайлы (guardrails).

🚀 Что здесь может сработать:

Reinforcement Learning (RL) и MCTS. Поиск цепочки атак - это, по сути, исследование графа состояний. Алгоритмы вроде Monte Carlo Tree Search (MCTS) или Q-learning могут помочь эффективно искать траектории, которые шаг за шагом сдвигают контекст агента в сторону опасного действия.

Пакетные итеративные промпты (Prompt Injection Frameworks). Агенты «ломаются» на стыке контекстов. Использование техник Indirect Prompt Injection (когда вредоносный текст подсовывается через web.search или mail_seed.json) - ключ к успеху. Нужно заставить агента самого прочитать ваш скрытый промпт при выполнении легитимной задачи.

Анализ трейсов (Trace Analysis). Среда возвращает логи вызовов инструментов. Напишите парсер логов (отслеживайте fs.read, email.read), чтобы ваш алгоритм атаки динамически адаптировался: если агент прочитал нужный файл, следующий шаг атаки должен подтолкнуть его к вызову http.post.

Генерация состязательных суффиксов (Adversarial Optimization). Атаки на основе градиентов или генетических алгоритмов для подбора таких токенов, которые максимизируют вероятность вызова агентом запрещенной функции, несмотря на системные промпты защиты.

📅 Дедлайн:
Прием решений открыт до конца августа 2026 года. Призовой фонд: $50,000, но Solo Gold и статус главного кошмара для ИИ-безопасности OpenAI стоят гораздо дороже!

🔗 Ссылка на соревнование:
https://www.kaggle.com/competitions/ai-agent-security-multi-step-tool-attacks

Для кого эта тема в новинку, предлагаем быстро погрузиться на нашем практическом курсе по AI Security 🚩. (промокод в комментах)

Кто готов заняться легальным хакингом фронтирных моделей? Обсуждаем векторы атак в комментариях! 👇
👍2🔥2🥰1👏1