您好,我使用 pyPDF2 库从pdf中提取了一些文本。当PDF以英文字符书写时,提取工作正常,但是当我尝试以希腊字符书写pdf时,提取返回为空。
这是提取内容的功能
returnedString = ""
for x in range(reader.getNumPages()):
page = reader.getPage(x)
valueText = page.extractText()
returnedString += valueText
return returnedString
这是我读取对象和阅读器并以阅读器作为参数调用上述 function(getContentOfPdfPages)的主要途径
fileObject = open(fullPathFile, mode='rb')
reader = PyPDF2.PdfFileReader(fileObject)
globalExtractedText = getContentOfPdfPages(reader)
我希望return函数的结果是希腊语pdf的文本,但是in函数在带有希腊字符的pdf上返回空。.
有人知道为什么我无法通过pyPDF2提取希腊字符吗?
有什么建议吗?