如何在sparkR中为spark数据帧指定分区数?

时间:2019-06-17 16:08:56

标签: r apache-spark partitioning sparkr

我正在使用R udf对大型文本文件进行复杂的文本处理。

Spark一直在失败-我认为这是由于内存最大化而引起的,因此,使分区很小似乎可以解决问题(崩溃不会发生在小的玩具数据上)。

通过查看其他语言的api,我认为我可以在将文本读取到spark数据帧时设置分区数,或者调用某种重新分区命令。

我看过文档并用谷歌搜索,但是找不到这些功能的sparkR版本?

非常感谢。

0 个答案:

没有答案