标签: r apache-spark sparklyr
我有一个火花表,其中有4000万条记录和100个变量。我需要将数据读取到R内存(as.data.frame)中,以便可以使用未分发的特定程序包中的函数。
将数据放入内存的最佳方法是什么?应该增加spark.executor.memory还是增加开销,还是应该更改驱动程序上的内存大小?
我知道,如果我使用Hive连接和dbgetquery(),可以将数据带入R,但是我希望能够使用Spark进行数据准备,然后将数据带入内存而无需将表重写为Hive