处理PDF以进行信息提取

时间:2013-09-16 09:45:28

标签: python html pdf nltk information-retrieval

我正在开发一个项目,我有一个pdf文件,描述了一个健康政策。我需要做的是从这个PDF中提取信息并尝试以某种形式保存它,这样我就可以通过从这个PDf中提取信息来回答与策略相关的问题。

这个PDF太大了,所以我想根据不同的部分划分PDF,这样当有关某个特定区域的查询出现时,我就不必浏览整个文档了。

我尝试使用一些将PDF转换为HTML的pdf转换器来解决这个问题。但是这些转换器不会将PDF正确转换为HTML,因此标题将具有标题标记。即使我正确地转换它并从文档中获取正确的部分,我也没有得到如何存储这些数据。(我的意思是我应该以哪种形式存储此数据)。

有没有其他解决方案可以实现这一目标。我正在使用Python,如果需要,我也可以使用NLTK。此外,PDfs的格式也不固定,我的意思是说我的代码适用于任何类型的PDF。

1 个答案:

答案 0 :(得分:1)

PDFMiner非常棒,因为它具有从PDF获取的每一段文本的位置。它不会很好地放在标题标签或类似的东西中,但如果你的文档中有一致的PDF结构,你可能会得到一些有用的东西。