Python库Pypdf库无法提取带有希腊字符的pdf

时间:2019-04-02 17:09:56

标签: python python-3.x text pypdf

您好,我使用 pyPDF2 库从pdf中提取了一些文本。当PDF以英文字符书写时,提取工作正常,但是当我尝试以希腊字符书写pdf时,提取返回为空。

这是提取内容的功能

    returnedString = ""
    for x in range(reader.getNumPages()):
        page = reader.getPage(x)
        valueText = page.extractText()
        returnedString += valueText

    return returnedString

这是我读取对象和阅读器并以阅读器作为参数调用上述 function(getContentOfPdfPages)的主要途径

fileObject = open(fullPathFile, mode='rb')
reader = PyPDF2.PdfFileReader(fileObject)
globalExtractedText = getContentOfPdfPages(reader)

我希望return函数的结果是希腊语pdf的文本,但是in函数在带有希腊字符的pdf上返回空。.

有人知道为什么我无法通过pyPDF2提取希腊字符吗?

有什么建议吗?

0 个答案:

没有答案