Python:删除标记并替换json文件中的\ u00a0

时间:2016-02-01 09:38:38

标签: python html json unicode

我有这样的json文件:

[
    {
       "content": ["<p style=\"text-align:justify;\"> This is content1</p>"],
       "title" : ["This is\u00a0title 1"]
    },
    {
       "content": ["<p style=\"text-align:justify;\"> This is content2</p>"],
       "title" : ["This is\u00a0title 2"]
    }
]

我希望我的json像这样:

[
        {
           "content": ["This is content1"],
           "title" : ["This is title 1"]
        },
        {
           "content": ["This is content2"],
           "title" : ["This is title 2"]
        }
    ]

我想删除HTML标记,并将&u00a0替换为&#34; &#34 ;. 怎么做?

1 个答案:

答案 0 :(得分:0)

从Python json module开始。这将允许您读取和写入Python数据结构中的JSON字符串。然后使用普通的Python工具处理数据。

要处理HTML,请查看Beautiful Soup