Чтобы данные работали для модели, их практически всегда нужно адаптировать и извлечь из них дополнительную информацию — то есть провести feature engineering. И если на небольших объёмах признаков задача, может, и не сложная, то когда их десятки тысяч — начинаются проблемы.
В Upgini мы делаем сервис поиска признаков для любой модели, используя сотни разных источников, а значит, делать feature engineering нам нужно уметь: а) универсально, б) автоматически и в) на очень широких таблицах. Да ещё и не потратить на это все деньги.
Исходя из нашего опыта, я расскажу:
* какие проблемы AutoML-инструментов для генерации признаков (в частности, Featuretools и OpenFE) не позволяют применять их на широких таблицах;
* как, взяв за основу OpenFE, мы почти полностью переписали его в свой фреймворк, чтобы эти проблемы побороть;
* какие простые и не очень соображения позволили нам генерировать в 500 раз меньше фич с лучшим качеством.
И кроме того — как ML помогает нам делать ML, чтобы помогать вашему ML :)