我想从pdf部分中提取文本,然后将其转换为表格格式数据。我可以使用PDFMiner提取pdf的整个文本,但是我想要的是检测pdf的各个部分(以及后续的子部分),然后获取与该部分/子部分相对应的所有文本。
我能够从索引页面中提取该部分的名称,但是知道我想要与该部分相对应的文本。
如您所见,我想为多个pdf进行此操作,但目前只有一个pdf即可
这是我用来提取节名称的代码:
{
"status": "success",
"data": {
"resultType": "vector",
"result": [
{
"metric": {
"__name__": "up",
"env": "demosite",
"instance": "localhost:9100",
"job": "node"
},
"value": [
1553849977.349,
"1"
]
},
{
"metric": {
"__name__": "up",
"instance": "ub-lab-server:9090",
"job": "prometheus"
},
"value": [
1553849977.349,
"1"
]
}
]
}
}