应用错误收集

我有一个火花表，其中有4000万条记录和100个变量。我需要将数据读取到R内存（as.data.frame）中，以便可以使用未分发的特定程序包中的函数。

将数据放入内存的最佳方法是什么？应该增加spark.executor.memory还是增加开销，还是应该更改驱动程序上的内存大小？

我知道，如果我使用Hive连接和dbgetquery（），可以将数据带入R，但是我希望能够使用Spark进行数据准备，然后将数据带入内存而无需将表重写为Hive