Pyspark分布式矩阵总和非空值

时间:2018-09-26 22:35:37

标签: python apache-spark matrix pyspark apache-spark-mllib

我正在尝试将熊猫的“点矩阵nansum”功能转换为 pyspark 。 目标是将该表转换为非空列总和的矩阵:

    dan ste bob
t1  na  2   na
t2  2   na  1
t3  2   1   na
t4  1   na  2
t5  na  1   2
t6  2   1   na
t7  1   na  2

例如,当“ dan”不为空(t-2、3、4、6、7)时,“ ste”的总和为2,而“ bob”为5。当“ ste”不为空时“ dan”的总和为4。(我将对角线归零,但无需这样做)

    dan ste bob
dan 0   2   5
ste 4   0   2
bob 4   1   0

计算必须保持分布式(不对熊猫)。 这是效果很好的熊猫版本:https://stackoverflow.com/a/46871184/7542835

0 个答案:

没有答案