考虑包含以下条目的分数S
的大型数据框。每行代表参与者的一部分A
,B
,C
和D
之间的竞赛。
A B C D
0.1 0.3 0.8 1
1 0.2 NaN NaN
0.7 NaN 2 0.5
NaN 4 0.6 0.8
阅读上述矩阵的方法是:查看第一行,参与者A
在该轮中得分0.1
,B
得分0.3
,依此类推
我需要构建一个三角矩阵C
,其中C[X,Y]
存储的参与者X
比参与者Y
好多少。更具体地说,C[X,Y]
会在X
和Y
之间保持平均值%的得分差异。
从上面的例子中可以看出:
C[A,B] = 100 * ((0.1 - 0.3)/0.3 + (1 - 0.2)/0.2) = 33%
我的矩阵S
很大,所以我希望在numpy
或pandas
中利用JIT(Numba?)或内置方法。我当然希望避免使用嵌套循环,因为S
有数百万行。
上面有效的算法是否有名称?
答案 0 :(得分:3)
让我们看看基于NumPy的解决方案,因此我们假设输入数据位于名为a
的数组中。现在,4个这样的变量的成对组合的数量将是4*3/2 = 6
。我们可以使用np.triu_indices()
生成与此类组合相对应的ID。然后,我们使用这些索引索引a
列。我们执行减法和除法,只需添加忽略NaN影响结果的列np.nansum()
即可获得所需的输出。
因此,我们会有这样的实现 -
R,C = np.triu_indices(a.shape[1],1)
out = 100*np.nansum((a[:,R] - a[:,C])/a[:,C],0)
示例运行 -
In [121]: a
Out[121]:
array([[ 0.1, 0.3, 0.8, 1. ],
[ 1. , 0.2, nan, nan],
[ 0.7, nan, 2. , 0.5],
[ nan, 4. , 0.6, 0.8]])
In [122]: out
Out[122]:
array([ 333.33333333, -152.5 , -50. , 504.16666667,
330. , 255. ])
In [123]: 100 * ((0.1 - 0.3)/0.3 + (1 - 0.2)/0.2) # Sample's first o/p elem
Out[123]: 333.33333333333337
如果您需要输出为(4,4)
数组,我们可以使用Scipy's squareform
-
In [124]: from scipy.spatial.distance import squareform
In [125]: out2D = squareform(out)
让我们转换为pandas数据帧以获得良好的视觉反馈 -
In [126]: pd.DataFrame(out2D,index=list('ABCD'),columns=list('ABCD'))
Out[126]:
A B C D
A 0.000000 333.333333 -152.500000 -50
B 333.333333 0.000000 504.166667 330
C -152.500000 504.166667 0.000000 255
D -50.000000 330.000000 255.000000 0
让我们手动计算[B,C]
并检查回来 -
In [127]: 100 * ((0.3 - 0.8)/0.8 + (4 - 0.6)/0.6)
Out[127]: 504.1666666666667