当我尝试以西里尔语
获取数据时出错import codecs
pdfFileObj = codecs.open('1.pdf', 'rb','utf-8')
错误是
'utf8' codec can't decode byte 0x9c in position 1: invalid start byte
答案 0 :(得分:1)
PDF不是unicode,PDF包含二进制流,包含文本,图像等。
看看PyPDF2。要从第一页获取文本,请执行
pdf = PdfFileReader(open('/tmp/russian.pdf', 'rb'))
text = pdf.getPage(0).extractText()
虽然您可能还需要将其转换为 windows-1251
text.encode('latin').decode('windows-1251')