我在Google App Scripts中构建了一个工具,用于将原始pdf格式(包含空白可填写字段 - 无需OCR)与已完成字段进行比较。两个文档都存储在同一个google驱动器中。
我的总体策略如下:
我使用mogsdad's Apps Script pdfToText utility,它成功地能够完美地解析空白表单。我遇到的问题是,当我尝试解析完成的表单时,可填写字段中的所有数据都会丢失。
我已经确定信息丢失发生在代码中的以下行:
var gdocFile = Drive.Files.insert(resource,pdfFile,insertOpts);
当pdf数据保存为gdoc时,可填写字段中的任何数据都会丢失。
我已经确定,如果我在DocHub或类似文件中打开pdf并保存副本(不再可编辑),则可以解析数据。
我的两个攻击计划是:
找到一种用可填写表格解析pdf的方法,或
找到一种“扁平化”的方法。 pdf中的可填写表格可以解析(我不确定这个术语)。
是否有人建议在哪里寻找完成任一选项(或任何其他想法)的方法?
我觉得我的问题是由于缺少一些关于PDF如何工作的知识,而不是javascript问题。
由于