SparkR:在临时文件夹上创建了大量文件

时间:2014-05-31 13:38:06

标签: apache-spark

我正在尝试使用这个sparkR和spark和R的集成。我看到机器上有大量的小文件。

任何想法如何解决此问题

1 个答案:

答案 0 :(得分:0)

输入文件的大小是多少?为什么小文件有问题?

您可以尝试将数据重新划分为更少的分区,我已经看到了帮助,例如(在斯卡拉)

ss.textFile("path/to/file").repartition(100).yourCode ...

抱歉,我不知道R API,我坚持使用Scala我发现它更强大,更强大 - 试一试:)