使用c#,我想查看是否在PDF页面上检查了特定的复选框。 PDF文件不是表单。
PDF可能类似于:
示例文件位于:MDS30ResidentP2.pdf (在这个示例文件中,我想以某种方式找出复选框" E"在问题A1000中进行检查。再次:PDF不是"形式"格式!)
PS:以下帖子都没有解决我的问题:
答案 0 :(得分:1)
OCR可能是唯一的方法。从PDF的角度来看,有一个矩形,其中一些矩形有两条线穿过它们。它们甚至不是图像,而是实际的矢量绘图命令。您可能会寻找额外的“x”绘图,但它与旁边显示的文本无关,因此必须编写一些模糊逻辑来估计“x”到什么“文本”,我认为你' d结束了一堆误报。如果您有一堆这些PDF文件,那么写一些东西可能是值得的,否则就是OCR或手动输入。
如果你想解析PDF,你可以尝试something like this这有点难看,但如果你一遍又一遍地解析相同的PDF,它可能会正常工作。如果你想要更通用和可重复使用的东西,我会查看iText post here的创建者。他的帖子是针对可选内容组的,但它应该给你一些想法。