高级PDF解析是否适用于当前的软件?

时间:2015-04-28 08:57:11

标签: parsing pdf pdfbox pdfminer

我们有一个项目,我们希望实现,在这个项目中,我们需要处理PDF文件(不幸的是)并解析他们的内容。在过去的几天里,我们一直在研究很多不同的图书馆,我们尝试了很少的图书馆。

虽然情况确实如此,但我们仍然不知道我们是否能够完成这项任务。基本上,PDF文档中的每个页面都包含6-7个问题,可能包含图像和5个多项选择答案。我们需要对这些问题进行细分,并进一步细分相关问题的多项选择答案。

我们发现PDFBoxJava)和PDFMinerPython)是解析PDF的最可靠的库但我个人认为创建一个满足我们要求的可靠系统将是非常困难的。这不是哪个库是最好的?问题,但更像是,如果这样的任务是可行的,目前在PDF解析世界中可以实现这样的高级要求吗?

当然,我愿意接受任何其他建议(图像处理,裁剪软件,手动裁剪等等),这可能有助于我们完成任务。

Ex:页面上的6个:

question format

0 个答案:

没有答案