我有一个数据查询问题,并且如何解决它有点困难。我有2个网址列表。一,我们可以称之为“积极命中”,另一种称为“未知命中”。目标是对每组页面进行标记化,并使用正向网址集在未知的网址集中查找任何匹配的标记。例如,如果正集中的第一个url上有令牌“hello”,则应根据所有未知url页面的标记化版本(以标记化形式)检查该令牌,以查看是否存在命中。然后转到积极集合中的第二个网址......等等。
我可以将页面标记为没有问题,甚至可以在肯定网址集中的每个页面与未知集合中的每个页面进行交集,但这非常慢。是否有另一种计算方法可以用来实现我的目标?
答案 0 :(得分:0)
我并非100%确定我知道你打算做什么,但听起来好像使用set算法会有效。
set1 = set(list1)
set2 = set(list2)
intersection = set1 & set2
if intersection:
# there's an intersection
list_intersection = sorted(list(intersection))
else:
# there's no intersection