如何将数百万个文件正确加载到RDD中

时间:2016-01-13 02:53:21

标签: apache-spark rdd

我有一大堆json文件(> 100万个文件),我想用Spark工作。

但是,我以前从未尝试过将这么多数据加载到RDD中,所以我实际上不知道是否可以完成,或者更确切地说是否应该这样做。

在Spark中处理RDD中的这一数据量的正确模式是什么?

1 个答案:

答案 0 :(得分:2)

最简单的方法是创建目录,将所有文件复制到目录,并在读取数据时将目录作为路径传递。

如果您尝试在目录路径中使用模式,Spark可能会遇到内存不足问题。