Spark从s3处理许多tar.gz文件

时间:2015-11-12 22:33:42

标签: amazon-s3 apache-spark

我在s3中的log-.tar.gz格式中有很多文件。我想处理它们,处理它们(从每一行中提取一个字段)并将其存储在一个新文件中。

我们有很多方法可以做到这一点。一种简单方便的方法是使用textFile方法访问文件。

//Read file from s3
rdd = sc.textFile("s3://bucket/project_name/date_folder/logfile1.*.gz")

我担心群集的内存限制。这样,主节点将被重载。是否有可以通过集群类型处理的文件大小的粗略估计?

我想知道是否有办法并行化从s3获取* .gz文件的过程,因为它们已按日期分组。

1 个答案:

答案 0 :(得分:2)

parallelize / makeRDD外,所有创建RDDs / DataFrames的方法都需要可以从所有工作人员访问数据,并且可以并行执行而无需加载驱动程序