应用错误收集

如何将数百万个文件正确加载到RDD中

时间：2016-01-13 02:53:21

标签： apache-spark rdd

我有一大堆json文件（> 100万个文件），我想用Spark工作。

但是，我以前从未尝试过将这么多数据加载到RDD中，所以我实际上不知道是否可以完成，或者更确切地说是否应该这样做。

在Spark中处理RDD中的这一数据量的正确模式是什么？

1 个答案:

答案 0 :(得分：2)

最简单的方法是创建目录，将所有文件复制到目录，并在读取数据时将目录作为路径传递。

如果您尝试在目录路径中使用模式，Spark可能会遇到内存不足问题。