应用错误收集

如何在sparkR中为spark数据帧指定分区数？

时间：2019-06-17 16:08:56

标签： r apache-spark partitioning sparkr

我正在使用R udf对大型文本文件进行复杂的文本处理。

Spark一直在失败-我认为这是由于内存最大化而引起的，因此，使分区很小似乎可以解决问题（崩溃不会发生在小的玩具数据上）。

通过查看其他语言的api，我认为我可以在将文本读取到spark数据帧时设置分区数，或者调用某种重新分区命令。

我看过文档并用谷歌搜索，但是找不到这些功能的sparkR版本？

非常感谢。

0 个答案:

没有答案