Python中高效,大规模的竞争评分

时间:2016-10-06 19:48:15

标签: python pandas numpy matrix numba

考虑包含以下条目的分数S的大型数据框。每行代表参与者的一部分ABCD之间的竞赛。

 A     B    C   D
0.1  0.3  0.8    1
  1  0.2  NaN  NaN
0.7  NaN    2  0.5
NaN   4   0.6  0.8

阅读上述矩阵的方法是:查看第一行,参与者A在该轮中得分0.1B得分0.3,依此类推

我需要构建一个三角矩阵C,其中C[X,Y]存储的参与者X比参与者Y好多少。更具体地说,C[X,Y]会在XY之间保持平均值%的得分差异。

从上面的例子中可以看出:

C[A,B] = 100 * ((0.1 - 0.3)/0.3 + (1 - 0.2)/0.2) = 33%

我的矩阵S很大,所以我希望在numpypandas中利用JIT(Numba?)或内置方法。我当然希望避免使用嵌套循环,因为S有数百万行。

上面有效的算法是否有名称?

1 个答案:

答案 0 :(得分:3)

让我们看看基于NumPy的解决方案,因此我们假设输入数据位于名为a的数组中。现在,4个这样的变量的成对组合的数量将是4*3/2 = 6。我们可以使用np.triu_indices()生成与此类组合相对应的ID。然后,我们使用这些索引索引a列。我们执行减法和除法,只需添加忽略NaN影响结果的列np.nansum()即可获得所需的输出。

因此,我们会有这样的实现 -

R,C = np.triu_indices(a.shape[1],1)
out = 100*np.nansum((a[:,R] - a[:,C])/a[:,C],0)

示例运行 -

In [121]: a
Out[121]: 
array([[ 0.1,  0.3,  0.8,  1. ],
       [ 1. ,  0.2,  nan,  nan],
       [ 0.7,  nan,  2. ,  0.5],
       [ nan,  4. ,  0.6,  0.8]])

In [122]: out
Out[122]: 
array([ 333.33333333, -152.5       ,  -50.        ,  504.16666667,
        330.        ,  255.        ])

In [123]: 100 * ((0.1 - 0.3)/0.3 + (1 - 0.2)/0.2) # Sample's first o/p elem
Out[123]: 333.33333333333337

如果您需要输出为(4,4)数组,我们可以使用Scipy's squareform -

In [124]: from scipy.spatial.distance import squareform

In [125]: out2D = squareform(out)

让我们转换为pandas数据帧以获得良好的视觉反馈 -

In [126]: pd.DataFrame(out2D,index=list('ABCD'),columns=list('ABCD'))
Out[126]: 
            A           B           C    D
A    0.000000  333.333333 -152.500000  -50
B  333.333333    0.000000  504.166667  330
C -152.500000  504.166667    0.000000  255
D  -50.000000  330.000000  255.000000    0

让我们手动计算[B,C]并检查回来 -

In [127]: 100 * ((0.3 - 0.8)/0.8 + (4 - 0.6)/0.6)
Out[127]: 504.1666666666667