谷歌应用程序脚本:解析PDF成功,但数据在可填写的字段'迷路

时间:2017-07-23 10:05:06

标签: pdf google-apps-script

我在Google App Scripts中构建了一个工具,用于将原始pdf格式(包含空白可填写字段 - 无需OCR)与已完成字段进行比较。两个文档都存储在同一个google驱动器中。

我的总体策略如下:

  1. 将空白pdf表单解析为行数组
  2. 将已完成的pdf表单解析为行数组
  3. 比较以找出差异(填写的值)。
  4. 我使用mogsdad's Apps Script pdfToText utility,它成功地能够完美地解析空白表单。我遇到的问题是,当我尝试解析完成的表单时,可填写字段中的所有数据都会丢失。

    我已经确定信息丢失发生在代码中的以下行:

      

    var gdocFile = Drive.Files.insert(resource,pdfFile,insertOpts);

    当pdf数据保存为gdoc时,可填写字段中的任何数据都会丢失。

    我已经确定,如果我在DocHub或类似文件中打开pdf并保存副本(不再可编辑),则可以解析数据。

    我的两个攻击计划是:

    1. 找到一种用可填写表格解析pdf的方法,或

    2. 找到一种“扁平化”的方法。 pdf中的可填写表格可以解析(我不确定这个术语)。

    3. 是否有人建议在哪里寻找完成任一选项(或任何其他想法)的方法?

      我觉得我的问题是由于缺少一些关于PDF如何工作的知识,而不是javascript问题。

      由于

0 个答案:

没有答案