应用错误收集

时间：2016-06-07 09:16:21

标签： python parsing pdf pdfminer pdf-parsing

我想在python中解析PDF文件。我见过PDFMiner的例子无法解释我的要求。

例如，如果我要解析简历，它包含各种字段，如摘要，经验和爱好。

我有兴趣只提取经验，这个经验领域将位于第一位或第二位或任何地方，我需要确定经验领域所在的位置并需要提取数据。

我该怎么做？

答案 0 :(得分：2)

提取该字段数据有两种可行的方法：

搜索某些预定义关键字，例如Experience以获取其位置。然后搜索下一部分的关键字（Hobbies），然后确定这两个部分之间的文本分区的坐标，并从该位置提取此文本。
如果使用相同的生成器生成PDF，那么您可能只找到Experience部分的坐标，并且每次都只从同一位置提取文本。
（最简单）只需将整个页面转换为文本，然后使用子字符串搜索或正则表达式解析生成的文本。这将是最简单和最简单的方式，因为有关PDF格式的所有工作都依赖于专业工具