我目前正在开发一种专有的PDF解析器,它可以读取具有各种数据类型的多种类型的文档。在开始之前,我在考虑是否可以阅读PowerPoint幻灯片。我的雇主使用的演示准则要求图像和背景设计-是否可以构建一个解析器,以从这些PowerPoint PDF中读取数据,而不会妨碍幻灯片的装饰?
所以工作流程基本上是这样的:
该应用程序的目标是将需要完成的阅读数量减少很多,因为其中一些演示报告可能长达多页,一天中的时间不足。
答案 0 :(得分:0)
将PDF解析为结构化数据总是很棘手,因为该格式旨在实现精确打印,而不是易于编辑或提取数据。
基本上,PDF包含诸如“在特定页面上的(x,y)位置有这样的文本的标签”之类的信息。
基本上,您很可能需要一些启发式方法才能将其转换为结构化数据。
基本上,这将是一种抓取方式。
在您喜欢的搜索引擎上搜索PDF scraping或类似内容,这将是一个不错的开始。
此外,您可能想看看这些类似的帖子:
答案 1 :(得分:0)
PowerPoint PDF不是PDF的类型。
PDF不会原生地将页面上的元素标识为例如来自PowerPoint文件的“幻灯片”图形。
您可以尝试构建一种算法,以决定是否要从创建的PDF中删除内容,但是这很棘手,对我来说似乎是错误的方法。
更好的方法是将PPT“导出”为文本“ first ”,例如在Microsoft PowerPoint中将其导出为RTF文件,这样您就可以提取所有文本并直接使用,然后将其转换为PDF。