将标题提取为“关键字”,将内容提取为“值”,并将其存储为PDF中的字典

时间:2019-09-12 09:28:39

标签: python dictionary pdf-extraction

我想将标题提取为“键”,并将其下方的内容提取为“值”,并使用python从PDF文件中将其存储为字典。

我尝试将PDF转换为html,并获得标题和内容的字体名称,并将其存储为字典,但未提供预期的输出。我也尝试过获取文本的坐标,仍然无济于事。

for data in soup.select('span'):
    print("--",data)
    if "b'TrebuchetMS-Bold' "in str(data):
        if key != "":
            final_json[key] = value
        key = ""
        value = ""
        #print("++",data.contents)
        for d in data.contents:
            if str(d) == "<br/>":
                pass
            else:
                key = key + str(d)
        key = key.strip()
        print("***key",key)
    elif "b'TimesNewRomanPSMT'" in str(data) and key!=""  :

        for d in data.contents:
            if str(d) == "<br/>":
                pass
            else:
                value = value + str(d)
        print("value",value)

0 个答案:

没有答案