使用python

时间:2016-06-07 09:16:21

标签: python parsing pdf pdfminer pdf-parsing

我想在python中解析PDF文件。我见过PDFMiner的例子无法解释我的要求。

例如,如果我要解析简历,它包含各种字段,如摘要,经验和爱好。

我有兴趣只提取经验,这个经验领域将位于第一位或第二位或任何地方,我需要确定经验领域所在的位置并需要提取数据。

我该怎么做?

1 个答案:

答案 0 :(得分:2)

提取该字段数据有两种可行的方法:

  1. 搜索某些预定义关键字,例如Experience以获取其位置。然后搜索下一部分的关键字(Hobbies),然后确定这两个部分之间的文本分区的坐标,并从该位置提取此文本。

  2. 如果使用相同的生成器生成PDF,那么您可能只找到Experience部分的坐标,并且每次都只从同一位置提取文本。

  3. (最简单)只需将整个页面转换为文本,然后使用子字符串搜索或正则表达式解析生成的文本。这将是最简单和最简单的方式,因为有关PDF格式的所有工作都依赖于专业工具