Lightning Talks «Калейдоскоп данных»

Научный стрим

Доклад принят в программу конференции

Целевая аудитория

ML-инженеры и data scientists, работающие с табличными данными (финансы, ритейл, индустрия, медицина). Исследователи и практики, интересующиеся: устойчивостью табличных моделей, OOD-детекцией и тестированием, надежной валидацией ML-систем.

Тезисы

Серия коротких, ярких, разных историй про то, как можно улучшить ваши датасеты и выжать из данных максимум.

Кого послушаем (список пополняется):

• Как смотреть на табличные данные: подвыборки и мета-характеристики вместо отдельных объектов / Ирина Деева

Табличные данные — один из самых распространённых форматов в машинном обучении, однако до сих пор не существует устойчивого и универсального способа «смотреть» на них. В отличие от изображений или текста, отдельный объект табличного датасета редко несёт самостоятельную семантическую нагрузку. В этом докладе я покажу, почему point-wise взгляд на табличные данные может быть неэффективен, и предложу альтернативу: рассматривать подвыборки данных и их мета-характеристики как основной объект анализа. Мы обсудим, как такие представления позволяют: лучше описывать структуру данных, выявлять скрытые сдвиги распределений, строить более реалистичные тесты для оценки устойчивости моделей.

Подход будет проиллюстрирован на задаче out-of-distribution (OOD) тестирования, где подвыборки с контролируемыми мета-характеристиками позволяют заранее оценивать деградацию качества моделей - даже при отсутствии реальных OOD-данных.

Ирина Деева

Университет ИТМО

PhD, старший научный сотрудник лаборатории композитного ИИ.

Видео

Другие доклады секции

Научный стрим

Жизнь научной статьи по ИИ: от идеи до A*
Александр Панов

Институт искусственного интеллекта AIRI