我正在尝试将熊猫的“点矩阵nansum”功能转换为 pyspark 。 目标是将该表转换为非空列总和的矩阵:
dan ste bob
t1 na 2 na
t2 2 na 1
t3 2 1 na
t4 1 na 2
t5 na 1 2
t6 2 1 na
t7 1 na 2
例如,当“ dan”不为空(t-2、3、4、6、7)时,“ ste”的总和为2,而“ bob”为5。当“ ste”不为空时“ dan”的总和为4。(我将对角线归零,但无需这样做)
dan ste bob
dan 0 2 5
ste 4 0 2
bob 4 1 0
计算必须保持分布式(不对熊猫)。 这是效果很好的熊猫版本:https://stackoverflow.com/a/46871184/7542835