访问大于(或小于)HDFS块大小的文件的spark机制

时间:2018-03-28 17:49:39

标签: apache-spark hdfs spark-dataframe parquet

这本身就是理论查询的大部分内容,但与我如何在HDFS中创建文件直接相关。所以,请耐心等待一下。

我最近坚持为存储在HDFS上的镶木地板(snappy)文件中的一组数据创建Dataframes。每个镶木地板文件的大小约为250+ MB,但文件总数约为6k。我认为在创建DF&amp ;;时创建约10K个任务的原因显然运行时间超过预期。

我浏览了一些帖子,其中给出了最小拼花文件大小最小1G的解释(https://forums.databricks.com/questions/101/what-is-an-optimal-size-for-file-partitions-using.html), (Is it better to have one large parquet file or lots of smaller parquet files?)。

我想了解Spark的处理方式是如何影响它正在读取的文件的大小。更重要的是,HDFS块大小和文件大小大于或小于HDFS块大小会影响如何创建spark分区?如果是,那么如何;我需要了解粒度级细节。如果有人有任何具体的&与我所要求的背景的精确联系,这对理解有很大的帮助。

0 个答案:

没有答案