AiConf

Эволюция Red Teaming’a в эпоху агентного ИИ

LLM

Безопасность
Атаки
Безопасность

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

ИБ специалисты(CISO/AppSec/MLSecOps), Пентестеры (Red Team), Разработчики LLM-продуктов, Data Scientists/ML Engineers, CTO/CEO AI-компаний

Тезисы

Пока вы неделями вручную тестируете LLM на «запрещённые слова», хакеры за несколько часов генерируют сотни работающих джейлбрейков с помощью эволюционных алгоритмов. Ручной Red Teaming больше не масштабируется — и это меняет всё. На докладе я покажу, какие системы используются для автоматической генерации adversarial-промптов, и почему современный взлом — это не "магические слова", а управляемый "дрейф персоны", который можно математически отследить через «Ось Помощника» в латентном пространстве модели.

Генерация текста — это уже вчерашняя угроза. Когда LLM управляет браузером, API и базами данных, атака смещается с «скажи плохое» на «сделай плохое». Я разберу, как можно снизить успех джейлбрейков на ~50% без потери качества модели, почему output-фильтры — это не эффективная линия защиты, и как должен выглядеть "иммунитет" вашей системы.

Данил Капустин

Raft Digital Solution

Я — сотрудник компании Raft Digital Solutions, Software Developer/AI Engineer. Основные интересы включают безопасность языковых моделей, чтение связанных научных статей и тестирование гипотез в этой области.

Видео

Другие доклады секции

LLM