我一直在尝试从包含印地语(Devanagari)中文本的PDF文件中提取文本,并将值存储在文本文件中。
您能帮我使用PyPDF2代替 pdfminer 和其他工具从PDF中提取印地语文本吗?
这是我最近出现错误的代码:
import PyPDF2 as ppdf
import codecs
pdfobj=open('hindi.pdf',mode='rb')
pdfread = ppdf.PdfFileReader(pdfobj)
page=pdfread.getPage(1)
text=page.extractText().encode('utf-8')
print(text)
但这会返回如下垃圾值:
204 0,*L !*+,-./, 0(1,#.23)#*+ ,#- @'#7<1593=? @'#7< :2