Question

我正在尝试在jsonl文件中查找包含相同标识符值的所有json对象。

所以，如果我的数据看起来像这样：

{
   "data": {
      "value": 42,
      "url": "url.com",
      "details": {
         "timestamp": "07:32:29",
         "identifier": "123ABC"
         }
      },
   "message": "string"
}

我想找到具有相同标识符值的每个对象。该文件太大，无法一次全部加载，因此我逐行检查并仅存储标识符值。这样做的缺点是缺少第一个具有该标识符的对象（即，如果对象A，B和C都具有相同的标识符，那么我只会得到保存的B和C）。为了找到第一次出现的标识符，我尝试第二次通读文件以仅在第一次找到每个重复的标识符时才使用。这是我遇到一些问题的地方。

这部分按预期工作：

import gzip
import json_lines
import jsonlines
from itertools import groupby

identifiers=set()
duplicates=[]

with json_lines.open('file.jsonlines.gz') as f:
    for item in f:
        ID = item["data"]["details"]["identifier"]
        if ID in identifiers:
            duplicates.append(item)
        else:
            identifiers.add(ID)

dup_IDs={dup["data"]["details"]["identifier"] for dup in duplicates}

但是当我第二遍阅读文件时：

with json_lines.open('file.jsonlines.gz') as f:
    for item in f:
        ID = item["data"]["details"]["identifier"]
        if ID in dup_IDs:
            duplicates.append(item)
            dup_IDs.remove(ID)
        else:
            continue

        if len(dup_IDs)==0:
            break
        else:
            continue

它运行约30分钟，最终使我的计算机崩溃。我假设（希望）这是因为我的代码有问题，而不是我的计算机有问题，因为代码更容易修复。

Answer 1

如果文件太大，建议将数据上传到SQL数据库，并使用SQL查询来过滤所需的内容。

Answer 2

import gzip
import json_lines
import jsonlines
from itertools import groupby

duplicates=[]
nb = {}
i = 0

with json_lines.open('file.jsonlines.gz') as f:
    for item in f:
        ID = item["data"]["details"]["identifier"]
        if ID in nb:
           if ID not in b:
               nb[ID]=int(i)
        else:
            nb[ID]=str(i)
        i +=1
i = 0
k = set(nb[i] for i in nb if isinstance(nb[i], int))
del nb
with json_lines.open('file.jsonlines.gz') as f:
    for item in f:
        if i in k:
           duplicates.append(item)
        i +=1
print(duplicates)

Python：在大型jsonl文件中查找重复项

2 个答案: