文本提取项目 - 仅从PDF中提取特定行/项目的最佳工具?

时间:2012-03-25 16:26:57

标签: python ruby pdf text automator

我正在开发一个项目,该项目将从pdf文档中提取指定的文本。我对这种提取没有经验。一个问题是我们不只是想要转储文档中的所有文本。相反,有没有办法只提取pdf中的某些字段?是否有一个pdf模板的概念可以用于这样的事情?

我正在尝试使用Apple的Automator - 这可以获取所有文本但不能指定文本。理想情况下,我希望Pages中的某个人拥有30个谨慎的文本行,并将其中20行指定为“目录项”,并让我们的Automator脚本只占用那20行。

关于最佳工作流程/提取工具的任何想法?我更喜欢只使用消费级别的项目,如Apple Pages,Automator,ruby或python作为脚本语言。

thx

编辑#1 看起来像标记的pdf可能是这样做的一种方式 - 不确定苹果页面支持得多好

3 个答案:

答案 0 :(得分:1)

使用python,最好的选择可能是PDFMiner。它可以提取每个文本字符串的坐标,因此您可以自己计算表单中的矩形并选择其中的内容。这都是相当低的水平,但不幸的是PDF格式很低级。

请注意,除非您已经了解了很多PDF结构,否则您会发现API和文档很少。查看用法示例,包括SO。

答案 1 :(得分:0)

您可以在 Ruby 中使用Origami,这是一个旨在解析,分析的框架, 并伪造PDF文档,或 Python 等效:Origapy,一个简单的Python 基于Ruby的Origami的界面。

答案 2 :(得分:0)

对于Ruby,您可以尝试pdf-reader来解析PDF并访问元数据和内容。提取您感兴趣的特定项目是另一个故事,但如何去做这在很大程度上取决于您期望的数据格式。