AiConf

Построение защиты LLM и агентов: контроль, guardrail-подходы и их валидация

LLM

Machine Learning
Безопасность
Атаки
Безопасность инфраструктуры
Аудит
Метрики

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Разработчики LLM/GenAI-приложений, ML/LLM-инженеры, LLMOps, MLSecOps, AISecOps, техлиды и CTO

Тезисы

При автоматизации бизнес-процесса с помощью LLM или с полноценной мультиагентной системы, стоит заранее подумать о рисках: от утечек персональных данных до полноценной потери контроля над инфраструктурой. Мы разберем, какие классы рисков встречаются на практике, и как их закрывать с помощью guardrail подходов на уровне архитектуры.
В докладе:
- Какие бывают guardrails: black и white box методы, политики, проверки контекста, контроль инструментов, пост-валидация ответа и новые подходы
- Валидация защитных слоев: бенчмарки, red-teaming сценарии, метрики ASR/FPR
- Как собрать свой бенчмарк с нуля и оценить обобщающую способность guardrail-подхода на специфичном домене.
- Защита агентов: как не дать агенту “сбиться с цели”, безопасно ограничивать действия/права, и предотвращать опасные сценарии при вызовах tools и работе с контекстом.

ML-инженер, ведет разработку Guardrail-системы в HiveTrace

Видео

Другие доклады секции

LLM