Question

当我尝试以西里尔语

获取数据时出错

import codecs
pdfFileObj = codecs.open('1.pdf', 'rb','utf-8')

错误是

'utf8' codec can't decode byte 0x9c in position 1: invalid start byte

Answer 1

PDF不是文本文件

PDF不是unicode，PDF包含二进制流，包含文本，图像等。

使用一些PDF库

看看PyPDF2。要从第一页获取文本，请执行

pdf = PdfFileReader(open('/tmp/russian.pdf', 'rb'))
text = pdf.getPage(0).extractText()

虽然您可能还需要将其转换为 windows-1251

text.encode('latin').decode('windows-1251')