如何使用python从pdf文件中提取文本?

时间:2020-09-02 01:41:16

标签: pdf pypdf2

我正在使用pyPDF2模块...。我的代码在下面->

import PyPDF2 as p2

pdffile = open("Abdus_Salam_Zaigirdar.pdf","rb")
pdfread = p2.PdfFileReader(pdffile)

x = pdfread.getPage(0)
print(x.extractText())

pdffile.close()

但是到目前为止,输出不是utf-8字符...我假设有某种方法可以定义python读取时使用哪种编码。输出是->

˘ˇˆ˙˝ˇ
˛˚˜






˘ˇ
ˇ˘ˆ˙

˝

˚˜ˇ ˇ ˇ!˜
˘
˙
ˆ#˘ $˛%

&ˇ&ˇ˜'
ˇ
%(%˜)

˘ˇˆ˙˙˙˚˜˙
 !ˇ˚
˘ˇˆ˙˙!ˇ&#˘˘˙
'#(˚
˘ˇˆ˙˙!#(#˘˘
)*#˚
˘ˇˆ˙˙#˘˘˙
,˝˛#˚
˘ˇˆ˙˙˙˙,˝˛#-#
˜˚.ˇ
˘ˇˆ˙˙˙˙/ˇ##

˜##1#ˇˇˇ#####
ˇ&#ˇ#

输出仅包含空格和符号。没有可用的文字

0 个答案:

没有答案