使用pdftotext从pdf中提取文本

时间:2014-04-15 16:32:34

标签: python pdf text extract pdftotext

我正在尝试使用python和pdftotext从pdf中提取文本。 我有一些奇怪的角色,我不知道什么是错的。 例如,第4页的this PDFBelgium ...

它给了我这个: %HOJLXP ...

“比利时”有问题。 这是我用来从pdf中获取文本的函数(取自另一个SO帖子):

def pdf_to_string(file_object):
    pdfData = file_object.read()

    tf = tempfile.NamedTemporaryFile()
    tf.write(pdfData)
    tf.seek(0)

    outputTf = tempfile.NamedTemporaryFile()

    if (len(pdfData) > 0) :
        out, err = subprocess.Popen(["pdftotext", "-layout", tf.name, outputTf.name ]).communicate()
        return outputTf.read()
    else :
        return None

我应该使用其他工具吗?

0 个答案:

没有答案