在Pyspark Dataframe中转置

时间:2017-10-18 08:42:40

标签: pandas pyspark spark-dataframe

我是 PySpark Dataframe的新手我正在关注this link的一个示例。在这个链接中,他们正在使用pandas dataframe,我希望使用Spark Dataframe实现相同的功能。我被困在一个问题,我想转置表我找不到更好的方法来做到这一点。由于列数太多,我发现很难实现并理解 Pivot 。有没有更好的方法呢?我可以在Pyspark中使用pandas和群集环境吗?

1 个答案:

答案 0 :(得分:0)

在pyspark API中pyspark.mllib.linalg.distributed.BlockMatrix具有转置功能。 如果你有一个列id, features

的df
bm_transpose = IndexedRowMatrix(df.rdd.map(lambda x:(x[0],
                  Vectors.dense(x[1])))).toBlockMatrix(2,2).transpose()