标签: hadoop amazon-s3 apache-spark emr
我在S3中有一个数据集,包含7000多个压缩文件,可扩展到几个TB。我试图读取数据转换它并使用Spark on EMR将其写回S3。我一直遇到的问题是RDD太大而无法容纳在内存中,因此转换RDD的过程会降低到蜗牛速度,因为RDD必须缓存到磁盘(以后需要再次计算统计数据) )。我想要做的是读取100或1000个文件处理它们然后从接下来的1000开始。如果有任何方法可以将这个内置到spark框架中,或者我需要手动列出文件并将它们分块。< / p>
谢谢, 森