应用错误收集

时间：2012-03-25 16:26:57

标签： python ruby pdf text automator

我正在开发一个项目，该项目将从pdf文档中提取指定的文本。我对这种提取没有经验。一个问题是我们不只是想要转储文档中的所有文本。相反，有没有办法只提取pdf中的某些字段？是否有一个pdf模板的概念可以用于这样的事情？

我正在尝试使用Apple的Automator - 这可以获取所有文本但不能指定文本。理想情况下，我希望Pages中的某个人拥有30个谨慎的文本行，并将其中20行指定为“目录项”，并让我们的Automator脚本只占用那20行。

关于最佳工作流程/提取工具的任何想法？我更喜欢只使用消费级别的项目，如Apple Pages，Automator，ruby或python作为脚本语言。

thx

编辑＃1 看起来像标记的pdf可能是这样做的一种方式 - 不确定苹果页面支持得多好

答案 0 :(得分：1)

使用python，最好的选择可能是PDFMiner。它可以提取每个文本字符串的坐标，因此您可以自己计算表单中的矩形并选择其中的内容。这都是相当低的水平，但不幸的是PDF格式很低级。

请注意，除非您已经了解了很多PDF结构，否则您会发现API和文档很少。查看用法示例，包括SO。

答案 1 :(得分：0)

您可以在 Ruby 中使用Origami，这是一个旨在解析，分析的框架，并伪造PDF文档，或 Python 等效：Origapy，一个简单的Python 基于Ruby的Origami的界面。

答案 2 :(得分：0)

对于Ruby，您可以尝试pdf-reader来解析PDF并访问元数据和内容。提取您感兴趣的特定项目是另一个故事，但如何去做这在很大程度上取决于您期望的数据格式。