Недавно на работе столкнулись с задачей разпознавания сканированных документов и поиска по ним. Мною был рассмотрен движок распознавания текста с открытым исходным кодом Tesseract. В данной статье будут рассмотрены основные моменты возможной реализации. Предположим, что у нас есть многостраничный отсканированные документ в формате PDF, но нераспознанный. И наша задача распознать текст с помощью OCR (Optical
Читать далее…