PyPDF返回垃圾编码

时间:2018-10-21 15:31:40

标签: data-mining codec pypdf2 hindi

我一直在尝试从包含印地语(Devanagari)中文本的PDF文件中提取文本,并将值存储在文本文件中。

您能帮我使用PyPDF2代替 pdfminer 和其他工具从PDF中提取印地语文本吗?

这是我最近出现错误的代码:

import PyPDF2 as ppdf
import codecs

pdfobj=open('hindi.pdf',mode='rb')
    pdfread = ppdf.PdfFileReader(pdfobj)
    page=pdfread.getPage(1)
    text=page.extractText().encode('utf-8')
    print(text)

但这会返回如下垃圾值:

204 0,*L  !*+,-./, 0(1,#.23)#*+ ,#- @'#7<1593=? @'#7< :2

0 个答案:

没有答案