В ходе работы над задачами поиска дефектов на конвейерах мы столкнулись с проблемой, что наиболее критичные дефекты встречаются очень редко, некоторые — раз в год или реже, но приводят к значительным последствиям. Мы достаточно давно экспериментируем с различными подходами по генерации синтетики, пробовали разные методы от фотошопа до диффузионок и хотим показать наш путь, рассказать что нового мы привнесли в этот процесс, как в итоге строится пайплайн, как он может негативно повлиять на обучение и как можно дополнительно проверить качество разметки не только на глаз, но и моделями, чтобы снизить переобучение.
Мы расскажем:
* почему редкие объекты такие важные;
* почему не работают традиционные методы увеличения выборки;
* как эволюционировали подходы к синтезу в проектах Северстали и что получается красивее;
* как проверить качество синтезированных данных не «на глаз»;
* побочные эффекты синтетики;
* как встроить синтетику в свои процессы и не потратить ценные реальные данные.