应用错误收集

我在S3中有一个数据集，包含7000多个压缩文件，可扩展到几个TB。我试图读取数据转换它并使用Spark on EMR将其写回S3。我一直遇到的问题是RDD太大而无法容纳在内存中，因此转换RDD的过程会降低到蜗牛速度，因为RDD必须缓存到磁盘（以后需要再次计算统计数据））。我想要做的是读取100或1000个文件处理它们然后从接下来的1000开始。如果有任何方法可以将这个内置到spark框架中，或者我需要手动列出文件并将它们分块。< / p>

谢谢，森

读取Chunks Spark中的数据

0 个答案: