如何使用C#检查是否在非表格PDF上选中了复选框?

时间:2014-08-08 19:11:24

标签: c# pdf itextsharp pdf-parsing

使用c#,我想查看是否在PDF页面上检查了特定的复选框。 PDF文件是表单。

PDF可能类似于:enter image description here

示例文件位于:MDS30ResidentP2.pdf (在这个示例文件中,我想以某种方式找出复选框" E"在问题A1000中进行检查。再次:PDF不是"形式"格式!)

PS:以下帖子都没有解决我的问题:

1 个答案:

答案 0 :(得分:1)

OCR可能是唯一的方法。从PDF的角度来看,有一个矩形,其中一些矩形有两条线穿过它们。它们甚至不是图像,而是实际的矢量绘图命令。您可能会寻找额外的“x”绘图,但它与旁边显示的文本无关,因此必须编写一些模糊逻辑来估计“x”到什么“文本”,我认为你' d结束了一堆误报。如果您有一堆这些PDF文件,那么写一些东西可能是值得的,否则就是OCR或手动输入。

如果你想解析PDF,你可以尝试something like this这有点难看,但如果你一遍又一遍地解析相同的PDF,它可能会正常工作。如果你想要更通用和可重复使用的东西,我会查看iText post here的创建者。他的帖子是针对可选内容组的,但它应该给你一些想法。