应用错误收集

时间：2019-07-10 16:55:19

标签： python parsing pdf pdf-scraping

我目前正在开发一种专有的PDF解析器，它可以读取具有各种数据类型的多种类型的文档。在开始之前，我在考虑是否可以阅读PowerPoint幻灯片。我的雇主使用的演示准则要求图像和背景设计-是否可以构建一个解析器，以从这些PowerPoint PDF中读取数据，而不会妨碍幻灯片的装饰？

所以工作流程基本上是这样的：

该应用程序的目标是将需要完成的阅读数量减少很多，因为其中一些演示报告可能长达多页，一天中的时间不足。

答案 0 :(得分：0)

将PDF解析为结构化数据总是很棘手，因为该格式旨在实现精确打印，而不是易于编辑或提取数据。

基本上，PDF包含诸如“在特定页面上的（x，y）位置有这样的文本的标签”之类的信息。

基本上，您很可能需要一些启发式方法才能将其转换为结构化数据。

基本上，这将是一种抓取方式。

在您喜欢的搜索引擎上搜索PDF scraping或类似内容，这将是一个不错的开始。

此外，您可能想看看这些类似的帖子：

答案 1 :(得分：0)

PowerPoint PDF不是PDF的类型。

PDF不会原生地将页面上的元素标识为例如来自PowerPoint文件的“幻灯片”图形。

您可以尝试构建一种算法，以决定是否要从创建的PDF中删除内容，但是这很棘手，对我来说似乎是错误的方法。

更好的方法是将PPT“导出”为文本“ first ”，例如在Microsoft PowerPoint中将其导出为RTF文件，这样您就可以提取所有文本并直接使用，然后将其转换为PDF。