Question

我想从pdf部分中提取文本，然后将其转换为表格格式数据。我可以使用PDFMiner提取pdf的整个文本，但是我想要的是检测pdf的各个部分（以及后续的子部分），然后获取与该部分/子部分相对应的所有文本。

我能够从索引页面中提取该部分的名称，但是知道我想要与该部分相对应的文本。

我想要这样的东西

如您所见，我想为多个pdf进行此操作，但目前只有一个pdf即可

这是我用来提取节名称的代码：

{
  "status": "success",
  "data": {
    "resultType": "vector",
    "result": [
      {
        "metric": {
          "__name__": "up",
          "env": "demosite",
          "instance": "localhost:9100",
          "job": "node"
        },
        "value": [
          1553849977.349,
          "1"
        ]
      },
      {
        "metric": {
          "__name__": "up",
          "instance": "ub-lab-server:9090",
          "job": "prometheus"
        },
        "value": [
          1553849977.349,
          "1"
        ]
      }
    ]
  }
}

从特定部分提取文本pdf

0 个答案: