假设我有这种类型的列表:
# 0 1 2 3 4 5 6 7 8 9 10 11 -- list index
li=[-1, -1, 2, 2, -1, 1, 1, 1, 1, 1, -1, -1 ]
我想找到n
以下索引的值相同的每个索引。
我可以这样做(费力地):
def sub_seq(li,n):
ans={}
for x in set(li):
ans[x]=[i for i,e in enumerate(li[:-n+1]) if all(x==y for y in li[i:i+n])]
ans={k:v for k,v in ans.items() if v}
return ans
li=[-1, -1, 2, 2, -1, 1, 1, 1, 1, 1, -1, -1]
for i in (5,4,3,2):
print i, sub_seq(li,i)
打印:
5 {1: [5]}
4 {1: [5, 6]}
3 {1: [5, 6, 7]}
2 {1: [5, 6, 7, 8], 2: [2], -1: [0, 10]}
有更好的方法吗?
答案 0 :(得分:5)
如果您首先将数据转换为方便的形式,则分析数据通常会更容易。在这种情况下,run-length-encoding将是一个很好的起点:
from itertools import groupby, accumulate
from collections import defaultdict
def sub_seq(li, n):
d = defaultdict(list)
rle = [(k, len(list(g))) for k, g in groupby(li)]
endpoints = accumulate(size for k, size in rle)
for end_index, (value, count) in zip(endpoints, rle):
for index in range(end_index - count, end_index - n + 1):
d[value].append(index)
return dict(d)
答案 1 :(得分:1)
正如Raymond Hettinger在答案中指出的,groupby
更容易检查连续值。如果你也枚举列表,你可以保留相应的索引并将它们添加到字典中(我使用defaultdict
使函数尽可能短):
from itertools import groupby
from operator import itemgetter
from collections import defaultdict
li = [-1, -1, 2, 2, -1, 1, 1, 1, 1, 1, -1, -1]
def sub_seq(li, n):
res = defaultdict(list)
for k, g in groupby(enumerate(li), itemgetter(1)):
l = list(map(itemgetter(0), g))
if n <= len(l): res[k] += l[0:len(l)-n+1]
return res
for i in (5,4,3,2):
print i, sub_seq(li,i)
打印哪些:
5 defaultdict(<type 'list'>, {1: [5]})
4 defaultdict(<type 'list'>, {1: [5, 6]})
3 defaultdict(<type 'list'>, {1: [5, 6, 7]})
2 defaultdict(<type 'list'>, {1: [5, 6, 7, 8], 2: [2], -1: [0, 10]})
答案 2 :(得分:0)
我个人认为这更具可读性,构建更少的对象,我猜想会跑得更快。
li=[-1, -1, 2, 2, -1, 1, 1, 1, 1, 1, -1, -1 ]
results = []
i = 0
while i < len(li):
j = i + 1
while j < len(li) and li[i] == li[j]:
j += 1
results.append((i,li[i],j-i))
i = j
print results #[(0, -1, 2), (2, 2, 2), (4, -1, 1), (5, 1, 5), (10, -1, 2)]