Валерия Дымбицкая на AiConf 2024

AutoFE-сапёр: укрощаем взрыв размерности в автоматической генерации признаков

Прочее

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Есть проблемы модные, а есть постоянные. Генерация и отбор признаков на табличных данных — одна из последних. Приходите узнать, как при помощи ML и эвристик можно сократить количество потенциальных фич еще ДО их расчета.

Целевая аудитория

Data Scientist'ы и ML-инженеры, сталкивающиеся с необходимостью feature engineering'а на множестве источников.

Тезисы

Скачать презентацию Все презентации конференции

Чтобы данные работали для модели, их практически всегда нужно адаптировать и извлечь из них дополнительную информацию — то есть провести feature engineering. И если на небольших объёмах признаков задача, может, и не сложная, то когда их десятки тысяч — начинаются проблемы.

В Upgini мы делаем сервис поиска признаков для любой модели, используя сотни разных источников, а значит, делать feature engineering нам нужно уметь: а) универсально, б) автоматически и в) на очень широких таблицах. Да ещё и не потратить на это все деньги.

Исходя из нашего опыта, я расскажу:
* какие проблемы AutoML-инструментов для генерации признаков (в частности, Featuretools и OpenFE) не позволяют применять их на широких таблицах;
* как, взяв за основу OpenFE, мы почти полностью переписали его в свой фреймворк, чтобы эти проблемы побороть;
* какие простые и не очень соображения позволили нам генерировать в 500 раз меньше фич с лучшим качеством.

И кроме того — как ML помогает нам делать ML, чтобы помогать вашему ML :)

Валерия Дымбицкая

Upgini

Разработчик в области ML и Big Data. Работала в OneFactor и Uzum, была техлидом дата-инженерной команды, создавая высоконагруженную data-платформу и autoML-инструменты. Сейчас разрабатывает алгоритмы поиска и feature engineering в Upgini.