Табличные данные — один из самых распространенных форматов в машинном обучении, однако до сих пор не существует устойчивого и универсального способа «смотреть» на них. В отличие от изображений или текста, отдельный объект табличного датасета редко несет самостоятельную семантическую нагрузку.
В этом докладе я покажу, почему point-wise-взгляд на табличные данные может быть неэффективен, и предложу альтернативу: рассматривать подвыборки данных и их метахарактеристики как основной объект анализа. Мы обсудим, как такие представления позволяют: лучше описывать структуру данных, выявлять скрытые сдвиги распределений, строить более реалистичные тесты для оценки устойчивости моделей.
Подход будет проиллюстрирован на задаче out-of-distribution (OOD) тестирования, где подвыборки с контролируемыми метахарактеристиками позволяют заранее оценивать деградацию качества моделей — даже при отсутствии реальных OOD-данных.