我正在开发一个项目,该项目将从pdf文档中提取指定的文本。我对这种提取没有经验。一个问题是我们不只是想要转储文档中的所有文本。相反,有没有办法只提取pdf中的某些字段?是否有一个pdf模板的概念可以用于这样的事情?
我正在尝试使用Apple的Automator - 这可以获取所有文本但不能指定文本。理想情况下,我希望Pages中的某个人拥有30个谨慎的文本行,并将其中20行指定为“目录项”,并让我们的Automator脚本只占用那20行。
关于最佳工作流程/提取工具的任何想法?我更喜欢只使用消费级别的项目,如Apple Pages,Automator,ruby或python作为脚本语言。
thx
编辑#1 看起来像标记的pdf可能是这样做的一种方式 - 不确定苹果页面支持得多好
答案 0 :(得分:1)
使用python,最好的选择可能是PDFMiner。它可以提取每个文本字符串的坐标,因此您可以自己计算表单中的矩形并选择其中的内容。这都是相当低的水平,但不幸的是PDF格式很低级。
请注意,除非您已经了解了很多PDF结构,否则您会发现API和文档很少。查看用法示例,包括SO。
答案 1 :(得分:0)
答案 2 :(得分:0)
对于Ruby,您可以尝试pdf-reader来解析PDF并访问元数据和内容。提取您感兴趣的特定项目是另一个故事,但如何去做这在很大程度上取决于您期望的数据格式。