我有一个包含一些重复项的Json文件,我正在寻找删除它们的方法。我的Json文本开头的两个例子:
"date": "May 16, 2012 Wednesday", "body": "THE future of one of Scotland's most important listed buildings .... World Monuments Fund. o See a picture gallery of Mavisbank House at scotsman.com/scotland ", "title": "Rescue deal to bring Adam mansion back from brink"
"date": "May 16, 2012 Wednesday", "body": "The future of one of Scotland's most important listed buildings .... World Monuments Fund.", "title": "Rescue deal to bring Adam mansion back from brink"
由于它们的扩展和不相关性,因为它们完全匹配,所以我在中间剪切了文本。我们可以看到文字几乎100%匹配,除了在开头THE
vs The
和结尾(额外句子:o See a picture gallery of Mavisbank House at scotsman.com/scotland
)。在这一行中,我想提供一种方法来I)找到重复项并且II)删除其中一个副本(注意它们也可以是多个副本)。我刚开始用Python编程,我不知道如何处理这个问题。任何帮助都非常感谢!
答案 0 :(得分:0)
我认为如果您首先将json String转换为模型对象会更好。
之后,您可以简单地遍历元素并删除重复项(到任何级别)。您可以在比较每个元素时忽略大小写。
此外,您可以简单地将每个正文/标题元素转换为一致的大小写,并将它们添加到一组中以进行重复检查,同时迭代,如@ForceBru在注释中指出的那样。
以下链接将指向json到对象转换的适当方向。
Is there a python json library can convert json to model objects, similar to google-gson?
希望这有帮助。