Как смотреть на табличные данные: подвыборки и метахарактеристики вместо отдельных объектов

Научный стрим

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Когда данные редкие (например, медицинские наблюдения), нам приходится копить их чуть ли не годами. За это время весь мир может поменяться, и старые данные могут стать «не такими». Из доклада Ирины вы узнаете, как не прозевать этот момент.

Целевая аудитория

ML-инженеры и data scientists, работающие с табличными данными (финансы, ретейл, индустрия, медицина). Исследователи и практики, интересующиеся: устойчивостью табличных моделей, OOD-детекцией и тестированием, надежной валидацией ML-систем.

Тезисы

Скачать презентацию Все презентации конференции

Табличные данные — один из самых распространенных форматов в машинном обучении, однако до сих пор не существует устойчивого и универсального способа «смотреть» на них. В отличие от изображений или текста, отдельный объект табличного датасета редко несет самостоятельную семантическую нагрузку.

В этом докладе я покажу, почему point-wise-взгляд на табличные данные может быть неэффективен, и предложу альтернативу: рассматривать подвыборки данных и их метахарактеристики как основной объект анализа. Мы обсудим, как такие представления позволяют: лучше описывать структуру данных, выявлять скрытые сдвиги распределений, строить более реалистичные тесты для оценки устойчивости моделей.

Подход будет проиллюстрирован на задаче out-of-distribution (OOD) тестирования, где подвыборки с контролируемыми метахарактеристиками позволяют заранее оценивать деградацию качества моделей — даже при отсутствии реальных OOD-данных.

Ирина Деева

Университет ИТМО

PhD, старший научный сотрудник лаборатории композитного ИИ.