Программно распознавать текст из сканов в файле PDF

Вы не можете извлечь отсканированный ocr текст из PDF. Вам нужно программное pdf обеспечение OCR. Хорошей pdf новостью является то, что pdf есть несколько приложений pdf с открытым исходным кодом, которые pdf вы можете попробовать, и ocr маршрут OCR, скорее всего, будет ocr проще, чем использование ocr библиотеки PDF для извлечения ocr текста. Проверьте Tesseract pdf и GOCR.

pdf

ocr

2022-08-13T07:59:42+00:00