我的意思是一个扫描图像或类似的东西,并将其转换为文本或有办法做到这一点
编辑:顺便说一句这不是重复我想知道我是否可以从扫描图像中获取文本而不是常规PDF
答案 0 :(得分:1)
Tesseract OCR的包装可用https://pypi.python.org/pypi/tesserocr
答案 1 :(得分:0)
尝试使用PDFminer,它可能适合您的需要。
答案 2 :(得分:0)
如果使用 online API,则可以使用Python提供的免费OCR.space Online OCR。 API支持将PDF转换为文本,并将数据作为JSON格式的字符串返回。
payload = {'isOverlayRequired': overlay,
'apikey': api_key,
'language': language,
}
with open(filename, 'rb') as f:
r = requests.post('https://api.ocr.space/parse/image',
files={filename: f},
data=payload,
)
return r.content.decode()