Эволюция Red Teaming’a в эпоху агентного ИИ
Программный комитет ещё не принял решения по этому докладу
Целевая аудитория
Тезисы
Пока вы неделями вручную тестируете LLM на «запрещённые слова», хакеры за несколько часов генерируют сотни работающих джейлбрейков с помощью эволюционных алгоритмов. Ручной Red Teaming больше не масштабируется — и это меняет всё. На докладе я покажу, какие системы используются для автоматической генерации adversarial-промптов, и почему современный взлом — это не "магические слова", а управляемый "дрейф персоны", который можно математически отследить через «Ось Помощника» в латентном пространстве модели.
Генерация текста — это уже вчерашняя угроза. Когда LLM управляет браузером, API и базами данных, атака смещается с «скажи плохое» на «сделай плохое». Я разберу, как можно снизить успех джейлбрейков на ~50% без потери качества модели, почему output-фильтры — это не эффективная линия защиты, и как должен выглядеть "иммунитет" вашей системы.
Я — сотрудник компании Raft Digital Solutions, Software Developer/AI Engineer. Основные интересы включают безопасность языковых моделей, чтение связанных научных статей и тестирование гипотез в этой области.
Видео
Другие доклады секции
LLM