Построение защиты LLM и агентов: контроль, guardrail-подходы и их валидация

LLM

Machine Learning

Безопасность

Атаки

Безопасность инфраструктуры

Аудит

Метрики

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

Разработчики LLM/GenAI-приложений, ML/LLM-инженеры, LLMOps, MLSecOps, AISecOps, техлиды и CTO

Тезисы

При автоматизации бизнес-процесса с помощью LLM или с полноценной мультиагентной системы, стоит заранее подумать о рисках: от утечек персональных данных до полноценной потери контроля над инфраструктурой. Мы разберем, какие классы рисков встречаются на практике, и как их закрывать с помощью guardrail подходов на уровне архитектуры.
В докладе:
- Какие бывают guardrails: black и white box методы, политики, проверки контекста, контроль инструментов, пост-валидация ответа и новые подходы
- Валидация защитных слоев: бенчмарки, red-teaming сценарии, метрики ASR/FPR
- Как собрать свой бенчмарк с нуля и оценить обобщающую способность guardrail-подхода на специфичном домене.
- Защита агентов: как не дать агенту “сбиться с цели”, безопасно ограничивать действия/права, и предотвращать опасные сценарии при вызовах tools и работе с контекстом.

Никита Облаков

HiveTrace

ML-инженер, ведет разработку Guardrail-системы в HiveTrace

Видео

Другие доклады секции

LLM

Наш путь в Machine Unlearning: От теории к практике

Вадим Шубин

Raft

Как сделать умный поиск кандидатов?

Алексей Осипов

ГК Юзтех

Быстро делаем вашу AI систему расширяемой и поддерживаемой с помощью DSPy

Николай Сенин

Независимый исследователь

Опыт перехода от maas к selfhosted/on premise моделям: проблемы, боли, решения

Сергей Нотевский

Битрикс24

Большие языковые модели: история и причины "взрыва"

Рыскулов Сергей Николаевич

Т-Банк

Как ломаются LLM Guardrails: практический разбор NER для ПД

Богдан Минко

Hivetrace

Эволюция Red Teaming’a в эпоху агентного ИИ

Данил Капустин

Raft Digital Solution

VLM для автоматической разметки сцен автономного вождения: практический опыт, вызовы и решения

Иван Катречко

Navio

Внедрение LLM в модерацию: от PoC до целевого решения

Сакаев Руслан

Авито

Как мы автоматизировали процесс Code review в Авито при помощи LLM

Марк Каширский

Авито тех

RAG и agentic‑подход в отечественных ИТ‑решениях: от бота к фабрике цифровых агентов

Максим Малышев

NOTAMEDIA

Приручаем зоопарк - архитектура и оркестрация в мультиагентных системах

Сергей Мамонов

Домклик

LLM Performance Playbook: как выбрать модель и конфигурацию сервинга на основе воспроизводимых тестов

Антон Удалов

Magnit Tech

Практика применения LLM в задачах безопасности приложений

Дмитрий Марюшкин

Ozon Fintech

Как “смотреть” на табличные данные: подвыборки и мета-характеристики вместо отдельных объектов

Ирина Деева

Университет ИТМО

Как мы растим эффективность в Яндекс Доставке: аналитические методы, unsupervised learning и LLM для повышения точности навигации

Андрей Нарцев

Яндекс Доставка

От чат-бота к агенту: как строить интерпретируемую автоматизацию поддержки с GPT

Николай Пономаренко

Техплатформа Городских сервисов Яндекса

Ускоряем работу с контент маркетингом и SMM при помощи ИИ

Сатаров Дмитрий

Агентство интернет-маркетинга "Эй, Стартапер!"

Кентавр: Революция в запуске IT-продуктов через гибридную аналитику

Шагалов Андрей Владимирович

Артезио

«LigaGPT: как мы построили и эксплуатируем агентную AI-платформу для QA, SRE и поддержки»

Константин Попандопуло

Umbrella IT

Мутационное тестирование как будущее агентского кодинга

Евгений Блинов

The Mutating Company

RAG умер. Да здравствует Agentic RAG: Эволюция умного поиска.

Артем Косенко

CodeInside