从特定部分提取文本pdf

时间:2019-03-29 09:51:23

标签: python pdf pdfminer

我想从pdf部分中提取文本,然后将其转换为表格格式数据。我可以使用PDFMiner提取pdf的整个文本,但是我想要的是检测pdf的各个部分(以及后续的子部分),然后获取与该部分/子部分相对应的所有文本。

我能够从索引页面中提取该部分的名称,但是知道我想要与该部分相对应的文本。

我想要这样的东西Desired Output

如您所见,我想为多个pdf进行此操作,但目前只有一个pdf即可

这是我用来提取节名称的代码:

{
  "status": "success",
  "data": {
    "resultType": "vector",
    "result": [
      {
        "metric": {
          "__name__": "up",
          "env": "demosite",
          "instance": "localhost:9100",
          "job": "node"
        },
        "value": [
          1553849977.349,
          "1"
        ]
      },
      {
        "metric": {
          "__name__": "up",
          "instance": "ub-lab-server:9090",
          "job": "prometheus"
        },
        "value": [
          1553849977.349,
          "1"
        ]
      }
    ]
  }
}

0 个答案:

没有答案