sql vs python方法检查重复项

时间:2017-04-14 10:52:18

标签: python sql

您好我有两个这样的文件:(有数百万行)

import random as r

t = {'va1':r.randint(0,50),'va2':r.randint(0,15),'va3':r.randint(0,10)}
n=15
for _ in range(n):
    new_dict = {k:t for k in range(n)}
print(new_dict)

那么如果我想检查第一个文件中哪些行不在第二个文件中,那么应该更快? 我应该将所有这些数据放入表中然后进行查询,还是应该让python执行此操作?

(1º)
AAA
BBB
CCC

(2º)
AAA
CCC
DDD

谢谢大家!

1 个答案:

答案 0 :(得分:1)

在Python中,您可以使用集合并对此执行集合操作,例如添加它们,获取交集等等。

我想说在Python中使用一个集合来获得结果。以下内容将为您提供您提到的结果。

first =set(['AAA','BBB','CCC'])
second = set(['AAA','CCC','DDD'])
third = first.union(second)

print(third)

至于你的问题什么会更快,这取决于你的数据。如果这适合内存,那么可能只有Python的方式会更快。