AiConf

Как “смотреть” на табличные данные: подвыборки и мета-характеристики вместо отдельных объектов

LLM

Machine Learning

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

ML-инженеры и data scientists, работающие с табличными данными (финансы, ритейл, индустрия, медицина). Исследователи и практики, интересующиеся: устойчивостью табличных моделей, OOD-детекцией и тестированием, надежной валидацией ML-систем.

Тезисы

Табличные данные - один из самых распространённых форматов в машинном обучении, однако до сих пор не существует устойчивого и универсального способа «смотреть» на них. В отличие от изображений или текста, отдельный объект табличного датасета редко несёт самостоятельную семантическую нагрузку. В этом докладе я покажу, почему point-wise взгляд на табличные данные может быть неэффективен, и предложу альтернативу: рассматривать подвыборки данных и их мета-характеристики как основной объект анализа. Мы обсудим, как такие представления позволяют: лучше описывать структуру данных, выявлять скрытые сдвиги распределений, строить более реалистичные тесты для оценки устойчивости моделей.

Подход будет проиллюстрирован на задаче out-of-distribution (OOD) тестирования, где подвыборки с контролируемыми мета-характеристиками позволяют заранее оценивать деградацию качества моделей - даже при отсутствии реальных OOD-данных.

Ирина Деева

Университет ИТМО

PhD, старший научный сотрудник лаборатории композитного ИИ.

Видео

Другие доклады секции

LLM