无法从“不可读”的pdf文件中的某些图像中提取页码

时间:2020-06-12 02:53:46

标签: python tesseract python-tesseract

在使用pytesseract将其转换为图像后,我试图从“不可读”的pdf文件中提取页码

import cv2
import pytesseract
from pytesseract import Output

pytesseract.pytesseract.tesseract_cmd = r'C:\Users\DB658WN\AppData\Local\Tesseract-OCR\tesseract.exe'
img = cv2.imread('./Sample2.PNG', 0)

df = pytesseract.image_to_data(img, lang='eng',config='--psm 6', output_type = 'data.frame')
n_boxes = len(df['text'])
for i in range(n_boxes):
    if int(df['conf'][i]) > 10:
        if int(df['top'][i]) > 600:
            if df['text'][i].isdigit():
                print('Page #: ', df['text'][i])

因此,该代码似乎适用于某些扫描图像,但不适用于所有图像,请建议我如何解决此问题

0 个答案:

没有答案