AiConf

Конференция завершена.

Ждем вас

на AiConf

в следующий раз!

За рамками сценария: непрерывное тестирование для адаптивных и безопасных LLM-систем

Обработка естественного языка

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Эмели расскажет про failure cases LLM, дообученных на свой домен, ограничения на безопасность и надежность в продакшне. Рассмотрит стратегии повышения робастности, базирующиеся на концепциях LLM judge, а также непрерывном тестировании и мониторинге.

Целевая аудитория

Этот доклад будет полезен всем, кто работает с LLM, включая разработчиков, дата саентистов и менеджеров продуктов, стремящихся ответственно и эффективно использовать данные системы.

Тезисы

Системы, основанные на LLM, предоставляют огромные возможности для бизнеса, начиная от создания виртуальных ассистентов и заканчивая автоматизацией сложных рабочих процессов. Однако их непредсказуемость и чувствительность к изменениям вызывают опасения по поводу безопасности и стабильности работы в production. Несмотря на то что тщательное тестирование перед развертыванием крайне важно, оно не способно выявить все проблемы.

Существует несколько стратегий, которые могут повысить безопасность и надежность LLM. Один из подходов заключается в добавлении safeguards механизмов в систему ответов LLM. Другой подход — это непрерывное тестирование и мониторинг для выявления и устранения проблем по мере их возникновения.

Этот доклад мы рассматрим взаимодополняющие роли мониторинга и непрерывного тестирования:
• Мониторинг: мы рассмотрим, как отслеживание количественных показателей, таких как сентимент, токсичность, cемнатическая близость запроса и ответа, длина и ключевые слова во входах и выходах модели, может предоставить динамический обзор работы системы и помочь в обнаружении текущих проблем.
• Непрерывное тестирование: мы обсудим, как дополнить мониторинг тестированием поведения модели в сложных сценариях, например тестирование на соблюдение конкретных политик компании.

Мы посмотрим на практические примеры и стратегии реализации тестирования с использованием инструментов с открытым исходным кодом. Этот доклад будет полезен всем, кто работает с LLM, включая разработчиков, дата саентистов и менеджеров продуктов, стремящихся ответственно и эффективно использовать LLM системы.

Сооснователь и технический директор Evidently AI - стартапе, который разрабатывает инструменты для тестирования и мониторинга качества данных и моделей машинного обучения.

Ранее она была сооснователем промышленного стартапа в области искусственного интеллекта и занимала должность Chief Data Scientist в Yandex Data Factory. Эмели руководила более чем 50 прикладными проектами в области машинного обучения для различных отраслей - от банковской сферы до производства. Она преподает advanced machine learning Harbour.Space university. Эмели также является соавтором учебной программы по машинному обучению и анализу данных на платформе Coursera, насчитывающей более 100 000 студентов.

Видео