Question

我的意思是一个扫描图像或类似的东西，并将其转换为文本或有办法做到这一点

编辑：顺便说一句这不是重复我想知道我是否可以从扫描图像中获取文本而不是常规PDF

Answer 1

Tesseract OCR的包装可用https://pypi.python.org/pypi/tesserocr

Answer 2

尝试使用PDFminer，它可能适合您的需要。

http://www.unixuser.org/~euske/python/pdfminer/index.html

Answer 3

如果使用 online API，则可以使用Python提供的免费OCR.space Online OCR。 API支持将PDF转换为文本，并将数据作为JSON格式的字符串返回。

  payload = {'isOverlayRequired': overlay,
               'apikey': api_key,
               'language': language,
               }
    with open(filename, 'rb') as f:
        r = requests.post('https://api.ocr.space/parse/image',
                          files={filename: f},
                          data=payload,
                          )
    return r.content.decode()

完整source code available on Github。

是否有一个python模块读取pdf并将其转换为文本

3 个答案: