在使用pytesseract将其转换为图像后,我试图从“不可读”的pdf文件中提取页码
import cv2
import pytesseract
from pytesseract import Output
pytesseract.pytesseract.tesseract_cmd = r'C:\Users\DB658WN\AppData\Local\Tesseract-OCR\tesseract.exe'
img = cv2.imread('./Sample2.PNG', 0)
df = pytesseract.image_to_data(img, lang='eng',config='--psm 6', output_type = 'data.frame')
n_boxes = len(df['text'])
for i in range(n_boxes):
if int(df['conf'][i]) > 10:
if int(df['top'][i]) > 600:
if df['text'][i].isdigit():
print('Page #: ', df['text'][i])
因此,该代码似乎适用于某些扫描图像,但不适用于所有图像,请建议我如何解决此问题