如何使用spark

时间:2018-11-29 19:13:23

标签: java apache-spark apache-spark-dataset

我有一堆大的相关文件。我想用较大文件中的数据子集生成较小文件。我如何使用apache sparkle来实现?

我能够加载这些文件,应用转换并在数据集中创建记录的子集。我可以执行df.show()来在驱动程序sysout中查看这些内容。但是我找不到将它们写入文件的方法。

我想要的只是文件中df.show的输出。 Spark已经将结果汇总到驱动程序中以显示此数据。为什么没有办法将它们写入文件!

我看到了类似的问题。但是看不到任何明确的答案。 coalesce(1)对我不起作用,因为它太大而无法保存在单个分区内存中。

如果无法写入文件,我还需要什么其他选择才能将此数据集保存在数据库之类的地方?我尝试了S3,但是它花费了很长时间,并且生成了大量文件。

1 个答案:

答案 0 :(得分:1)

limit个数据:

df: DataFrame

df.limit(10).write.format(...).save(...)