如何在不使用unix进行转换的情况下在python中读取pdf文件?

时间:2013-08-07 08:03:07

标签: python pdf

pdfile=open("tutorial.pdf","r")
xyz= pdfile.readlines()
pqr=pdfile.readline()
for a in xyz:
    print a

此代码不显示实际内容。相反,它会显示一些问号和方框。

3 个答案:

答案 0 :(得分:2)

PDF文件不是纯文本 - 您不能只将其字节打印到终端。您需要使用PDF阅读库(请参阅Python PDF library获取一些建议)来阅读它。

答案 1 :(得分:2)

PDF文件包含格式化数据,您无法直接阅读,

所以使用pyPdf模块! 点击这里http://pybrary.net/pyPdf/ 安装,您无需转换即可阅读。

答案 2 :(得分:1)

如果您正在处理文本PDF文件,我建议您使用PDFMiner。 (可在此处找到完整的示例:https://github.com/syllabs/pdf2text