如何从西里尔文的pdf中获取数据?

时间:2017-10-05 08:30:11

标签: python python-2.7

当我尝试以西里尔语

获取数据时出错
import codecs
pdfFileObj = codecs.open('1.pdf', 'rb','utf-8')

错误是

'utf8' codec can't decode byte 0x9c in position 1: invalid start byte

1 个答案:

答案 0 :(得分:1)

PDF不是文本文件

PDF不是unicode,PDF包含二进制流,包含文本,图像等。

使用一些PDF库

看看PyPDF2。要从第一页获取文本,请执行

pdf = PdfFileReader(open('/tmp/russian.pdf', 'rb'))
text = pdf.getPage(0).extractText()

虽然您可能还需要将其转换为 windows-1251

text.encode('latin').decode('windows-1251')