Построение защиты LLM и агентов: контроль, guardrail-подходы и их валидация
Программный комитет ещё не принял решения по этому докладу
Целевая аудитория
Тезисы
При автоматизации бизнес-процесса с помощью LLM или с полноценной мультиагентной системы, стоит заранее подумать о рисках: от утечек персональных данных до полноценной потери контроля над инфраструктурой. Мы разберем, какие классы рисков встречаются на практике, и как их закрывать с помощью guardrail подходов на уровне архитектуры.
В докладе:
- Какие бывают guardrails: black и white box методы, политики, проверки контекста, контроль инструментов, пост-валидация ответа и новые подходы
- Валидация защитных слоев: бенчмарки, red-teaming сценарии, метрики ASR/FPR
- Как собрать свой бенчмарк с нуля и оценить обобщающую способность guardrail-подхода на специфичном домене.
- Защита агентов: как не дать агенту “сбиться с цели”, безопасно ограничивать действия/права, и предотвращать опасные сценарии при вызовах tools и работе с контекстом.
ML-инженер, ведет разработку Guardrail-системы в HiveTrace
Видео
Другие доклады секции
LLM