我正在尝试提高脚本的效率,该脚本采用表示数据表的嵌套列表,带有一列ID(每个ID可能包含许多条目)。该脚本计算具有超过100个条目的ID的数量,以及超过200个条目。
有没有一种方法可以让我每次都可以通过列表理解来遍历列表?
list_of_IDs = [row[4] for row in massive_nested_list] ### get list of ID numbers
list_of_IDs = set(list_of_IDs) ### remove duplicates
list_of_IDs = list(list_of_IDs)
counter200 = 0
counter100 = 0
for my_ID in list_of_IDs:
temp = [row for row in massive_nested_list if row[4] == my_ID]
if len(temp) > 200:
counter200 += 1
if len(temp) > 100:
counter100 += 1
答案 0 :(得分:4)
使用collections.Counter()
instance计算您的ID。没有必要首先收集所有可能的ID。然后,您可以从那里整理计数:
from collections import Counter
counts = Counter(row[4] for row in massive_nested_list)
counter100 = counter200 = 0
for id, count in counts.most_common():
if count >= 200:
counter200 += 1
elif count >= 100:
counter100 += 1
else:
break
在N个嵌套列表中给定K个唯一ID,您的代码将采用O(KN)循环来计算所有内容;最坏的情况(K == N)表示您的解决方案需要二次时间(对于每增加一行,您需要执行N次更多的工作)。上面的代码减少了N个项目上没有一个循环,然后是K项目上的另一个循环,使其成为O(N)(线性)算法。
答案 1 :(得分:1)
最简单的方法是:
temp100 = [row for row in massive_nested_list if row[4] == my_ID and row >= 100 and row < 200]
temp200 = [row for row in massive_nested_list if row[4] == my_ID and row >= 200]
然后你可以去:
len(temp200)
OR
counter200 = len(temp200)