标签: apache-spark
我正在尝试使用这个sparkR和spark和R的集成。我看到机器上有大量的小文件。
任何想法如何解决此问题
答案 0 :(得分:0)
输入文件的大小是多少?为什么小文件有问题?
您可以尝试将数据重新划分为更少的分区,我已经看到了帮助,例如(在斯卡拉)
ss.textFile("path/to/file").repartition(100).yourCode ...
抱歉,我不知道R API,我坚持使用Scala我发现它更强大,更强大 - 试一试:)