Эволюция Red Teaming’a в эпоху агентного ИИ

LLM

Безопасность

Атаки

Безопасность

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

ИБ специалисты(CISO/AppSec/MLSecOps), Пентестеры (Red Team), Разработчики LLM-продуктов, Data Scientists/ML Engineers, CTO/CEO AI-компаний

Тезисы

Пока вы неделями вручную тестируете LLM на «запрещённые слова», хакеры за несколько часов генерируют сотни работающих джейлбрейков с помощью эволюционных алгоритмов. Ручной Red Teaming больше не масштабируется — и это меняет всё. На докладе я покажу, какие системы используются для автоматической генерации adversarial-промптов, и почему современный взлом — это не "магические слова", а управляемый "дрейф персоны", который можно математически отследить через «Ось Помощника» в латентном пространстве модели.

Генерация текста — это уже вчерашняя угроза. Когда LLM управляет браузером, API и базами данных, атака смещается с «скажи плохое» на «сделай плохое». Я разберу, как можно снизить успех джейлбрейков на ~50% без потери качества модели, почему output-фильтры — это не эффективная линия защиты, и как должен выглядеть "иммунитет" вашей системы.

Данил Капустин

Raft Digital Solution

Я — сотрудник компании Raft Digital Solutions, Software Developer/AI Engineer. Основные интересы включают безопасность языковых моделей, чтение связанных научных статей и тестирование гипотез в этой области.

Видео

Другие доклады секции

LLM

RAG умер. Да здравствует Agentic RAG: Эволюция умного поиска.

Артем Косенко

CodeInside

Практика применения LLM в задачах безопасности приложений

Дмитрий Марюшкин

Ozon Fintech

RAG и agentic‑подход в отечественных ИТ‑решениях: от бота к фабрике цифровых агентов

Максим Малышев

NOTAMEDIA

Как “смотреть” на табличные данные: подвыборки и мета-характеристики вместо отдельных объектов

Ирина Деева

Университет ИТМО

LLM Performance Playbook: как выбрать модель и конфигурацию сервинга на основе воспроизводимых тестов

Антон Удалов

Magnit Tech

Внедрение LLM в модерацию: от PoC до целевого решения

Сакаев Руслан

Авито

Большие языковые модели: история и причины "взрыва"

Рыскулов Сергей Николаевич

Т-Банк

Мутационное тестирование как будущее агентского кодинга

Евгений Блинов

The Mutating Company

Построение защиты LLM и агентов: контроль, guardrail-подходы и их валидация

Никита Облаков

HiveTrace

Как ломаются LLM Guardrails: практический разбор NER для ПД

Богдан Минко

Hivetrace

Наш путь в Machine Unlearning: От теории к практике

Вадим Шубин

Raft

От чат-бота к агенту: как строить интерпретируемую автоматизацию поддержки с GPT

Николай Пономаренко

Техплатформа Городских сервисов Яндекса

Приручаем зоопарк - архитектура и оркестрация в мультиагентных системах

Сергей Мамонов

Домклик

Как сделать умный поиск кандидатов?

Алексей Осипов

ГК Юзтех

«LigaGPT: как мы построили и эксплуатируем агентную AI-платформу для QA, SRE и поддержки»

Константин Попандопуло

Umbrella IT

Как мы растим эффективность в Яндекс Доставке: аналитические методы, unsupervised learning и LLM для повышения точности навигации

Андрей Нарцев

Яндекс Доставка

Кентавр: Революция в запуске IT-продуктов через гибридную аналитику

Шагалов Андрей Владимирович

Артезио

VLM для автоматической разметки сцен автономного вождения: практический опыт, вызовы и решения

Иван Катречко

Navio

Как мы автоматизировали процесс Code review в Авито при помощи LLM

Марк Каширский

Авито тех

Ускоряем работу с контент маркетингом и SMM при помощи ИИ

Сатаров Дмитрий

Агентство интернет-маркетинга "Эй, Стартапер!"

Опыт перехода от maas к selfhosted/on premise моделям: проблемы, боли, решения

Сергей Нотевский

Битрикс24

Быстро делаем вашу AI систему расширяемой и поддерживаемой с помощью DSPy

Николай Сенин

Независимый исследователь