AiConf

OCR в ритейле: одна задача, множество применений

GenAI & Perception: генерация и распознавание текстов, музыки, изображений, видео и 3D

Python
ML

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Сегментные индикаторы цифр на весах, штрих-коды, мутные фото, кривые ценники – настоящая головная боль датасаентиста. Артем Ерохин знает, как выживает OCR в диких условиях ритейла. Почему готовые детекторы не идеальны, а LLM не оптимальны? Приходите послушать про рабочие фишки для тысяч магазинов!

Целевая аудитория

Специалисты в ML от уровня junior. Доклад во многом обзорный, но будут и технические детали.

Тезисы

Казалось бы, задача OCR (optical character recognition) достаточно простая, но реальный мир в реальном ритейле может удивить множеством разнообразнейших краевых случаев, потому:
- Поговорим о том, какие более специфичные задачи решаются в более общей задаче OCR в ритейле, какие есть особенности, какие условия. Как вообщем это используется и, что еще важнее, как решаются эти задачи (и какие есть фишки для того, чтобы сделать эти решения лучше)
- Рассмотрим, что сейчас есть из SoTA по этим задачам
- Как это все внедрить, учитывая особенности крупного ритейла (например, работы решения в десятках тысяч магазинов)

Более 10 лет занимаюсь работой с данными, DS и ML. Активно выступаю на конференциях, пишу, веду телеграм канал Artificial Stupidity, менторю и преподаю.

Видео

Другие доклады секции

GenAI & Perception: генерация и распознавание текстов, музыки, изображений, видео и 3D