От OCR к интеллектуальному распознаванию: как мы построили высокоточную и быструю систему для банковского документооборота
Программный комитет ещё не принял решения по этому докладу
Целевая аудитория
Тезисы
Автоматизация банковского документооборота упирается в качество распознавания: ошибки OCR ведут к задержкам, росту ручных проверок и снижению качества последующей аналитики. В эпоху LLM это становится ещё важнее — необходимо корректно передавать как содержание документа, так и его структуру в удобном для модели формате.
Существующие open-source инструменты и решения на основе LLM показывают хорошее качество на открытых бенчмарках, однако на реальных доменных документах они справляются не так хорошо. Дополнительно использование в промышленной среде накладывает ограничение на скорость работы, что также влияет на конечный выбор решения.
В этом докладе мы расскажем, как развивали внутренний сервис распознавания документов: от разработки внутреннего бенчмарка, создания синтетических датасетов до системного улучшения компонент движка распознования. Удалось локализовать ключевые источники деградации и оптимизировать каждый этап отдельной специализированной моделью, уменьшая накопление ошибок по цепочке. В результате получена система распознавания, которая как опережает open-source решения на 30% по качеству, так и превосходит по скорости, обеспечивая практическую применимость для высоконагруженных банковских процессов.
В IT более трех лет, специализируюсь на задачах компьютерного зрения, OCR, и LLM. Разрабатываю системы распознавания документов в Райфе, в свободное время люблю готовить.
Видео
Другие доклады секции
Продуктизация AI-решений