Question

我正在尝试使用这个sparkR和spark和R的集成。我看到机器上有大量的小文件。

任何想法如何解决此问题

Answer 1

输入文件的大小是多少？为什么小文件有问题？

您可以尝试将数据重新划分为更少的分区，我已经看到了帮助，例如（在斯卡拉）

ss.textFile("path/to/file").repartition(100).yourCode ...

抱歉，我不知道R API，我坚持使用Scala我发现它更强大，更强大 - 试一试：）