标签: apache-spark rdd
我有一大堆json文件(> 100万个文件),我想用Spark工作。
但是,我以前从未尝试过将这么多数据加载到RDD中,所以我实际上不知道是否可以完成,或者更确切地说是否应该这样做。
在Spark中处理RDD中的这一数据量的正确模式是什么?
答案 0 :(得分:2)
最简单的方法是创建目录,将所有文件复制到目录,并在读取数据时将目录作为路径传递。
如果您尝试在目录路径中使用模式,Spark可能会遇到内存不足问题。