如何打印spark rdd struct数据并保存到本地文件

时间:2018-06-07 13:04:46

标签: scala rdd

rdd数据是键,值格式,值是结构数据 如何打印前100个数据,并将其保存为本地文件。

它可能是用户rdd.take(10).saveAsTextFile,但会报告错误。

1 个答案:

答案 0 :(得分:0)

如果您使用take上的rdd作为

rdd.take(10)

它会返回Array而不是rddsaveAsTextFile将无法使用数组。

您可以使用zipWithIndex进行过滤,并将过滤保存为

rdd.zipWithIndex().filter(_._2 < 100).map(_._1).saveAsTextFile("path to the output file")

此处_._2 < 100用于表示您要保存前100个数据