如何使用Tesseract和/或Poppler将PDF图像或图像转换为文本?

时间:2017-04-05 15:55:22

标签: python pdf tesseract poppler pdf-extraction

Python 3.6.1 Mac OSX

关于Tesseract,我尝试了很多不同的样本/模板代码,我在网上找到了PDF - >文字和图片 - >文本。他们似乎都没有工作。

如果您知道有效的代码或者有Tesseract,Poppler或两者兼有的优秀教程的网站,请与我们联系。

Pytesser似乎过时了。 Magick似乎只是一个Windows程序。魔杖似乎也没有帮助。

Tesseract-OCR是我正在尝试使用的 ,但我不知道如何为它设置代码,找不到一个有效的教程。我只能找到安装教程。

我可以使用Poppler for PDF-> Text 但是我遇到了需要提取的PDF图像。我假设我需要一个单独的代码来获取PDF并将其转换为图像文件,然后将代码转换为文本文件(Teseseract)。 或者我可以使用Poppler的PDFImage,我不知道如何编写代码(这里的帮助也非常受欢迎)。

我的Poppler PDF to Text代码是:

import csv, re, requests, subprocess, sys

url = (
    'http://gwinnetttaxcommissioner.publicaccessnow.com/'
    'Portals/0/PDF/Excess%20funds%20all%20years%20-%20rev02232017.pdf'
)

r = requests.get(url, headers={'user-agent': 'Mozilla/5.0'})

filename = url.split('/')[-1].replace('%20', ' ')
with open(filename, 'wb') as fh:
    fh.write(r.content)

subprocess.call(['pdftotext', '-layout', filename])

writer = csv.writer(sys.stdout)
with open(filename[:-3] + 'txt') as fh:
    text = fh.read()
    for line in re.findall('(?m)^\d.+\d$', text):
        writer.writerow(re.split(r' {3,}', line))

它很棒。

我无法弄清楚如何格式化Poppler的PDFImage。

此外,我如何在Tesseract中实现类似的功能,因为它是最好的OCR之一?

0 个答案:

没有答案