如何打开PDF并阅读?

时间:2009-11-08 20:01:30

标签: pdf

如何打开PDF文件并使用Python阅读其中的一些内容(这种语言是首选,但Ruby,Perl或PHP也很好)(如果它被识别(不仅仅是图像))或报告没有OCR,这是不可能的? TIA

更新:感谢您的解决方案,我相信其中一些会很适合我。

@RichH,我有一个pdf文件,不知道它是基于图像还是基于文本。我正在寻找一种工具来帮助我找到它,以防它基于文本提取它的一些内容。

2 个答案:

答案 0 :(得分:5)

对于Perl,请查看以下模块:

答案 1 :(得分:1)

解析PDF并从中制作有用的东西很难,因为格式专注于保持布局,因此文本可以以每个字母单独定位的方式存储,具体取决于文本也可以存储为图形的字体

用于阅读PDF的库我知道包括Zend Framework,其中PDF component包含一个PDF解析器,可以从PHP中使用并提供或多或少的可用结果,而商业PDFlib提供了相当的可用的结果和提供绑定到不同的语言。