给出一组范围如下
dates = [[1200, 1300], [1100, 1300], [1200, 1300], [1200, 1400], [1100, 1400]]
我想以有效的方式提取所有可能的间隔,然后计算每个间隔中可用范围的数量。
对于该示例,可能的间隔的结果矩阵将是:
[1100, 1200] [1200, 1300] [1300, 1400]
0 0 1 0
1 1 1 0
2 0 1 0
3 0 1 1
4 1 1 1
然后,按列的总和给出每个间隔中的范围数
[1100, 1200] 2
[1200, 1300] 5
[1300, 1400] 2
答案 0 :(得分:3)
这是一种方法,为您提供所需的numpy
矩阵m
,其布尔值为:
def getOverlap(a, b):
return max(0, min(a[1], b[1]) - max(a[0], b[0]))
nodes = sorted(np.unique(np.array(dates).flatten()))
intervals = zip(nodes[:-1], nodes[1:])
# [(1100, 1200), (1200, 1300), (1300, 1400)]
m = np.array([[bool(getOverlap(i, d)) for d in dates] for i in intervals])
m.sum(axis=1)
# array([2, 5, 2])
请注意,如果您想要'矩阵'成为pandas
DataFrame
,只需:
pd.DataFrame(m.transpose().astype(int), columns=intervals)
(1100, 1200) (1200, 1300) (1300, 1400)
0 0 1 0
1 1 1 0
2 0 1 0
3 0 1 1
4 1 1 1
答案 1 :(得分:0)
我在这里遵循这个方法。可以比这更紧凑。那是另一天!
c=[[1200, 1300], [1100, 1300], [1200, 1300], [1200, 1400], [1100, 1400]]
print "string values", c
uniquea={}
new=[]
for i in c:
j=str(i)
if j in new:
uniquea[j]+=1
else:
uniquea[j]=1
new.append(j)
print uniquea,new