我有一个PySpark DataFrame,其中一列作为一个热编码向量。我想在groupby之后通过向量加法来聚合不同的一个热编码向量
e.g。 df[userid,action] Row1: ["1234","[1,0,0]] Row2: ["1234", [0 1 0]]
我希望输出为行:["1234", [ 1 1 0]]
所以向量是按userid
分组的所有向量的总和。
我怎样才能做到这一点? PySpark sum聚合操作不支持向量加法。
答案 0 :(得分:8)
您有几种选择:
两个选项2& 3效率相对较低(耗费CPU和内存)。