我正在尝试从一组PDF文件中读取内容。 PDF文件是扁平的,即它们没有任何表单字段或交互性。最初,所有这些PDF都具有表单字段/交互性,后来被展平。目前我只有扁平的版本。
我的目标是在展平前检索输入到文本字段中的值和复选框(最重要的是)。
我已经探索了一些Java库,如pdfbox和itext,但所有示例似乎都在处理带有表单字段的PDF。我还探索了一个OMR库来提取复选框的值,但它在像素级别工作,我不能在阅读时硬编码复选框的位置,因为它有时可能会有所不同。
有没有办法实现这个目标?任何建议都非常感谢。
谢谢!