OCR в ретейле: одна задача, множество применений

GenAI & Perception: генерация и распознавание текстов, музыки, изображений, видео и 3D

Python

Google Outlook Apple

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Сегментные индикаторы цифр на весах, штрих-коды, мутные фото, кривые ценники – настоящая головная боль дата-сайентиста. Артем Ерохин знает, как выживает OCR в диких условиях ретейла. Почему готовые детекторы неидеальны, а LLM неоптимальны? Приходите послушать про рабочие фишки для тысяч магазинов!

Целевая аудитория

Специалисты в ML от уровня junior. Доклад во многом обзорный, но будут и технические детали.

Тезисы

Скачать презентацию Все презентации конференции

Казалось бы, задача OCR (optical character recognition) достаточно простая, но реальный мир в реальном ретейле может удивить множеством разнообразнейших краевых случаев, потому:
* поговорим о том, какие более специфичные задачи решаются в более общей задаче OCR в ретейле, какие есть особенности, какие условия. Как, вообще, это используется и, что еще важнее, как решаются эти задачи (и какие есть фишки для того, чтобы сделать эти решения лучше);
* рассмотрим, что сейчас есть из SoTA по этим задачам;
* как это все внедрить, учитывая особенности крупного ретейла (например, работы решения в десятках тысяч магазинов).

Артем Ерохин

X5 Tech

Более 10 лет занимается работой с данными, DS и ML. Активно выступает на конференциях, пишет, ведет телеграм-канал Artificial Stupidity, менторит и преподает.