应用错误收集

我一直在尝试从包含印地语（Devanagari）中文本的PDF文件中提取文本，并将值存储在文本文件中。

您能帮我使用PyPDF2代替 pdfminer 和其他工具从PDF中提取印地语文本吗？

这是我最近出现错误的代码：

import PyPDF2 as ppdf
import codecs

pdfobj=open('hindi.pdf',mode='rb')
    pdfread = ppdf.PdfFileReader(pdfobj)
    page=pdfread.getPage(1)
    text=page.extractText().encode('utf-8')
    print(text)

但这会返回如下垃圾值：

204 0,*L  !*+,-./, 0(1,#.23)#*+ ,#- @'#7<1593=? @'#7< :2

PyPDF返回垃圾编码

0 个答案: