Question

我想将标题提取为“键”，并将其下方的内容提取为“值”，并使用python从PDF文件中将其存储为字典。

我尝试将PDF转换为html，并获得标题和内容的字体名称，并将其存储为字典，但未提供预期的输出。我也尝试过获取文本的坐标，仍然无济于事。

for data in soup.select('span'):
    print("--",data)
    if "b'TrebuchetMS-Bold' "in str(data):
        if key != "":
            final_json[key] = value
        key = ""
        value = ""
        #print("++",data.contents)
        for d in data.contents:
            if str(d) == "<br/>":
                pass
            else:
                key = key + str(d)
        key = key.strip()
        print("***key",key)
    elif "b'TimesNewRomanPSMT'" in str(data) and key!=""  :

        for d in data.contents:
            if str(d) == "<br/>":
                pass
            else:
                value = value + str(d)
        print("value",value)

将标题提取为“关键字”，将内容提取为“值”，并将其存储为PDF中的字典

0 个答案: