Как “смотреть” на табличные данные: подвыборки и мета-характеристики вместо отдельных объектов
Программный комитет ещё не принял решения по этому докладу
Целевая аудитория
Тезисы
Табличные данные - один из самых распространённых форматов в машинном обучении, однако до сих пор не существует устойчивого и универсального способа «смотреть» на них. В отличие от изображений или текста, отдельный объект табличного датасета редко несёт самостоятельную семантическую нагрузку. В этом докладе я покажу, почему point-wise взгляд на табличные данные может быть неэффективен, и предложу альтернативу: рассматривать подвыборки данных и их мета-характеристики как основной объект анализа. Мы обсудим, как такие представления позволяют: лучше описывать структуру данных, выявлять скрытые сдвиги распределений, строить более реалистичные тесты для оценки устойчивости моделей.
Подход будет проиллюстрирован на задаче out-of-distribution (OOD) тестирования, где подвыборки с контролируемыми мета-характеристиками позволяют заранее оценивать деградацию качества моделей - даже при отсутствии реальных OOD-данных.
PhD, старший научный сотрудник лаборатории композитного ИИ.
Видео
Другие доклады секции
LLM