我正在使用pyPDF2模块...。我的代码在下面->
import PyPDF2 as p2
pdffile = open("Abdus_Salam_Zaigirdar.pdf","rb")
pdfread = p2.PdfFileReader(pdffile)
x = pdfread.getPage(0)
print(x.extractText())
pdffile.close()
但是到目前为止,输出不是utf-8字符...我假设有某种方法可以定义python读取时使用哪种编码。输出是->
˘ˇˆ˙˝ˇ
˛˚˜
˘ˇ
ˇ˘ˆ˙
˝
˚˜ˇ ˇ ˇ!˜
˘
˙
ˆ#˘ $˛%
&ˇ&ˇ˜'
ˇ
%(%˜)
˘ˇˆ˙˙˙˚˜˙
!ˇ˚
˘ˇˆ˙˙!ˇ&#˘˘˙
'#(˚
˘ˇˆ˙˙!#(#˘˘
)*#˚
˘ˇˆ˙˙#˘˘˙
,˝˛#˚
˘ˇˆ˙˙˙˙,˝˛#-#
˜˚.ˇ
˘ˇˆ˙˙˙˙/ˇ##
˜##1#ˇˇˇ#####
ˇ&#ˇ#
输出仅包含空格和符号。没有可用的文字