我是 PySpark Dataframe的新手我正在关注this link的一个示例。在这个链接中,他们正在使用pandas dataframe,我希望使用Spark Dataframe实现相同的功能。我被困在一个问题,我想转置表我找不到更好的方法来做到这一点。由于列数太多,我发现很难实现并理解 Pivot 。有没有更好的方法呢?我可以在Pyspark中使用pandas和群集环境吗?
答案 0 :(得分:0)
在pyspark API中pyspark.mllib.linalg.distributed.BlockMatrix
具有转置功能。
如果你有一个列id, features
bm_transpose = IndexedRowMatrix(df.rdd.map(lambda x:(x[0],
Vectors.dense(x[1])))).toBlockMatrix(2,2).transpose()