标签: r apache-spark partitioning sparkr
我正在使用R udf对大型文本文件进行复杂的文本处理。
Spark一直在失败-我认为这是由于内存最大化而引起的,因此,使分区很小似乎可以解决问题(崩溃不会发生在小的玩具数据上)。
通过查看其他语言的api,我认为我可以在将文本读取到spark数据帧时设置分区数,或者调用某种重新分区命令。
我看过文档并用谷歌搜索,但是找不到这些功能的sparkR版本?
非常感谢。