Question

您好我有两个这样的文件:(有数百万行）

import random as r

t = {'va1':r.randint(0,50),'va2':r.randint(0,15),'va3':r.randint(0,10)}
n=15
for _ in range(n):
    new_dict = {k:t for k in range(n)}
print(new_dict)

那么如果我想检查第一个文件中哪些行不在第二个文件中，那么应该更快？我应该将所有这些数据放入表中然后进行查询，还是应该让python执行此操作？

(1º)
AAA
BBB
CCC

(2º)
AAA
CCC
DDD

谢谢大家！

Answer 1

在Python中，您可以使用集合并对此执行集合操作，例如添加它们，获取交集等等。

我想说在Python中使用一个集合来获得结果。以下内容将为您提供您提到的结果。

first =set(['AAA','BBB','CCC'])
second = set(['AAA','CCC','DDD'])
third = first.union(second)

print(third)

至于你的问题什么会更快，这取决于你的数据。如果这适合内存，那么可能只有Python的方式会更快。

sql vs python方法检查重复项

1 个答案: