应用错误收集

我正在开发一个项目，我有一个pdf文件，描述了一个健康政策。我需要做的是从这个PDF中提取信息并尝试以某种形式保存它，这样我就可以通过从这个PDf中提取信息来回答与策略相关的问题。

这个PDF太大了，所以我想根据不同的部分划分PDF，这样当有关某个特定区域的查询出现时，我就不必浏览整个文档了。

我尝试使用一些将PDF转换为HTML的pdf转换器来解决这个问题。但是这些转换器不会将PDF正确转换为HTML，因此标题将具有标题标记。即使我正确地转换它并从文档中获取正确的部分，我也没有得到如何存储这些数据。（我的意思是我应该以哪种形式存储此数据）。

有没有其他解决方案可以实现这一目标。我正在使用Python，如果需要，我也可以使用NLTK。此外，PDfs的格式也不固定，我的意思是说我的代码适用于任何类型的PDF。