应用错误收集

您好，我使用 pyPDF2 库从pdf中提取了一些文本。当PDF以英文字符书写时，提取工作正常，但是当我尝试以希腊字符书写pdf时，提取返回为空。

这是提取内容的功能

    returnedString = ""
    for x in range(reader.getNumPages()):
        page = reader.getPage(x)
        valueText = page.extractText()
        returnedString += valueText

    return returnedString

这是我读取对象和阅读器并以阅读器作为参数调用上述 function（getContentOfPdfPages）的主要途径

fileObject = open(fullPathFile, mode='rb')
reader = PyPDF2.PdfFileReader(fileObject)
globalExtractedText = getContentOfPdfPages(reader)

我希望return函数的结果是希腊语pdf的文本，但是in函数在带有希腊字符的pdf上返回空。.

有人知道为什么我无法通过pyPDF2提取希腊字符吗？

有什么建议吗？

Python库Pypdf库无法提取带有希腊字符的pdf

0 个答案: