意外的EOF,使用slate在Python 2.7.12上解析PDF文件

时间:2016-08-26 08:51:11

标签: python-2.7 parsing pdf pdfminer slate

我从Jacqueline Kazil和Katherine Karmul手中接过了O' Reiley的Python数据争夺战。在第5章,第94页中,我运行以下代码。

import slate

pdf = 'EN-FINAL Table 9.pdf'

with open(pdf) as f:
    doc = slate.PDF(f)

for page in doc[:2]:
    print page

我使用Windows 10,Python 2.7.12,运行slate 0.5.2,pdfminer 20140328并成功安装了pip。我得到了以下结果:

File "C:\Python27\lib\site-packages\pdfminer\psparser.py", line 215, in fillbuf
    raise PSEOF('Unexpected EOF')
 pdfminer.psparser.PSEOF: Unexpected EOF

我只知道EOF意味着文件的结尾'并且不能从数据源读取更多数据。有人知道发生了什么吗?

如果有人想查看我尝试解析的文件,请点击此处: https://github.com/jackiekazil/data-wrangling/tree/master/data/chp5

1 个答案:

答案 0 :(得分:0)

这解决了我:https://stackoverflow.com/a/18262661/6843645

您的代码将是:

import slate

pdf = 'EN-FINAL Table 9.pdf'
with open(pdf, 'rb') as f:
    doc = slate.PDF(f)

for page in doc[:2]:
    print page