От OCR к интеллектуальному распознаванию: как мы построили высокоточную и быструю систему для банковского документооборота

Продуктизация AI-решений

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

ML-инженеры. Все, кому интересно распознавание документов

Тезисы

Автоматизация банковского документооборота упирается в качество распознавания: ошибки OCR ведут к задержкам, росту ручных проверок и снижению качества последующей аналитики. В эпоху LLM это становится ещё важнее — необходимо корректно передавать как содержание документа, так и его структуру в удобном для модели формате.

Существующие open-source инструменты и решения на основе LLM показывают хорошее качество на открытых бенчмарках, однако на реальных доменных документах они справляются не так хорошо. Дополнительно использование в промышленной среде накладывает ограничение на скорость работы, что также влияет на конечный выбор решения.

В этом докладе мы расскажем, как развивали внутренний сервис распознавания документов: от разработки внутреннего бенчмарка, создания синтетических датасетов до системного улучшения компонент движка распознования. Удалось локализовать ключевые источники деградации и оптимизировать каждый этап отдельной специализированной моделью, уменьшая накопление ошибок по цепочке. В результате получена система распознавания, которая как опережает open-source решения на 30% по качеству, так и превосходит по скорости, обеспечивая практическую применимость для высоконагруженных банковских процессов.

Иван Трофимов

Райффайзен банк

В IT более трех лет, специализируюсь на задачах компьютерного зрения, OCR, и LLM. Разрабатываю системы распознавания документов в Райфе, в свободное время люблю готовить.