我想将标题提取为“键”,并将其下方的内容提取为“值”,并使用python从PDF文件中将其存储为字典。
我尝试将PDF转换为html,并获得标题和内容的字体名称,并将其存储为字典,但未提供预期的输出。我也尝试过获取文本的坐标,仍然无济于事。
for data in soup.select('span'):
print("--",data)
if "b'TrebuchetMS-Bold' "in str(data):
if key != "":
final_json[key] = value
key = ""
value = ""
#print("++",data.contents)
for d in data.contents:
if str(d) == "<br/>":
pass
else:
key = key + str(d)
key = key.strip()
print("***key",key)
elif "b'TimesNewRomanPSMT'" in str(data) and key!="" :
for d in data.contents:
if str(d) == "<br/>":
pass
else:
value = value + str(d)
print("value",value)