如何使用spark交换文件中的列和行

时间:2016-03-15 01:46:47

标签: scala apache-spark pyspark

如何将列转换为行,将行转换为列,类似于文件中存在的数据的矩阵转置。

代表: - 输入文件: -

    aa ab ac ad ae af ag
    ba bb bc bd be bf bg
    ca cb cc cd ce cf cg

输出文件: -

   aa ba ca
   ab bb cb
   ac bc cc
   ad bd cd
   ae be ce
   af bf cf
   ag bg cg

谢谢:)

1 个答案:

答案 0 :(得分:0)

与此处的问题类似: How to transpose an RDD in Spark

您可以通过调用df.rdd将DataFrame转换回rdd,并按照帖子中提供的有关RDD的相同步骤进行操作。 如果DataFrame足够小,那么使用collect()的第一个简单转换示例就可以了。