Question

我正在尝试使用sparklyr加载具有一百万行和1000列的数据集。我正在一个非常大的集群上运行Spark。数据的大小似乎仍然太大。我尝试了两种不同的方法：

1） - 将.csv放入hdfs - spark_read_csv（spark_context，path）

2） - 将csv文件作为常规R数据帧读取 - spark_frame＆lt; -copy_to（sc，R-dataframe）

两种方式在数据集的子集上都能很好地工作，但在我尝试读取整个数据集时失败。

有人知道一种适合大型数据集的方法吗？

谢谢，菲利克斯

Answer 1

问题是 - 你需要将整个数据集读入内存吗？

首先 - 请注意Spark evaluates transformations lazily。将spark_read_csv内存参数设置为FALSE会使Spark映射文件，但不会在内存中复制它。只有在调用collect（）时才会进行整个计算。

date {
           match => [ "timestamp" , "dd/MMM/yyyy:HH:mm:ss Z" ]
           remove_field => ["timestamp"]
        }

因此，在进行任何计算之前，请考虑减少行和列，并将结果返回到R，如下例所示：