PDF来自定义脚本

时间:2017-01-10 16:11:36

标签: scripting ocr data-extraction

我们总是以相同的格式从客户处收到大量自行开票发票,我需要将其操作为特定的Excel格式以导入我的会计系统。

最好的编码语言是什么?

谢谢,

的Nik

1 个答案:

答案 0 :(得分:0)

听起来很棘手的部分是从PDF中获取信息。为此,您可以使用OCR。完成后,您可以使用VBA(Office Automation)将其加载到Excel中。

大多数OCR API不仅返回文本,还返回单词的坐标(边界框)。以下是免费OCR.space OCR API

中的示例

API输出是这样的JSON响应:

{
  "ParsedResults": [
    {
      "TextOverlay": {
        "Lines": [
          {
            "Words": [
              {
                "WordText": "TEXT",
                "Left": 279,
                "Top": 89,
                "Height": 40,
                "Width": 107
              }
            ],
            "MaxHeight": 40,
            "MinTop": 89
          },
          {
            "Words": [
              {
                "WordText": "WALKING",
                "Left": 233,
                "Top": 144,

具有相同功能的其他API包括Google Cloud Vision,Microsoft Cognitive Services和Abbyy。

下一步,您可以解析JSON文件并查找某个x / y范围内的信息,并将其分配给Excel中的某些字段。