从间隔数组创建类别

时间:2016-05-10 12:04:22

标签: python numpy pandas

给出一组范围如下

dates = [[1200, 1300], [1100, 1300], [1200, 1300], [1200, 1400], [1100, 1400]]

我想以有效的方式提取所有可能的间隔,然后计算每个间隔中可用范围的数量。

对于该示例,可能的间隔的结果矩阵将是:

     [1100, 1200]  [1200, 1300]  [1300, 1400]
0           0          1           0
1           1          1           0
2           0          1           0
3           0          1           1
4           1          1           1

然后,按列的总和给出每个间隔中的范围数

[1100, 1200]    2
[1200, 1300]    5
[1300, 1400]    2

2 个答案:

答案 0 :(得分:3)

这是一种方法,为您提供所需的numpy矩阵m,其布尔值为:

def getOverlap(a, b):
    return max(0, min(a[1], b[1]) - max(a[0], b[0]))

nodes     = sorted(np.unique(np.array(dates).flatten()))
intervals = zip(nodes[:-1], nodes[1:])
# [(1100, 1200), (1200, 1300), (1300, 1400)]

m = np.array([[bool(getOverlap(i, d)) for d in dates] for i in intervals])

m.sum(axis=1)
# array([2, 5, 2])

请注意,如果您想要'矩阵'成为pandas DataFrame,只需:

pd.DataFrame(m.transpose().astype(int), columns=intervals)

   (1100, 1200)  (1200, 1300)  (1300, 1400)
0             0             1             0
1             1             1             0
2             0             1             0
3             0             1             1
4             1             1             1

答案 1 :(得分:0)

我在这里遵循这个方法。可以比这更紧凑。那是另一天!

c=[[1200, 1300], [1100, 1300], [1200, 1300], [1200, 1400], [1100, 1400]]
print "string values", c
uniquea={}
new=[]
for i in c:
    j=str(i)
    if j in new:
        uniquea[j]+=1
    else:
        uniquea[j]=1
        new.append(j)

print uniquea,new