我想在python中解析PDF文件。我见过PDFMiner的例子无法解释我的要求。
例如,如果我要解析简历,它包含各种字段,如摘要,经验和爱好。
我有兴趣只提取经验,这个经验领域将位于第一位或第二位或任何地方,我需要确定经验领域所在的位置并需要提取数据。
我该怎么做?
答案 0 :(得分:2)
提取该字段数据有两种可行的方法:
搜索某些预定义关键字,例如Experience
以获取其位置。然后搜索下一部分的关键字(Hobbies
),然后确定这两个部分之间的文本分区的坐标,并从该位置提取此文本。
如果使用相同的生成器生成PDF,那么您可能只找到Experience
部分的坐标,并且每次都只从同一位置提取文本。
(最简单)只需将整个页面转换为文本,然后使用子字符串搜索或正则表达式解析生成的文本。这将是最简单和最简单的方式,因为有关PDF格式的所有工作都依赖于专业工具