apache-spark - 访问大于（或小于）HDFS块大小的文件的spark机制

这本身就是理论查询的大部分内容，但与我如何在HDFS中创建文件直接相关。所以，请耐心等待一下。

我最近坚持为存储在HDFS上的镶木地板（snappy）文件中的一组数据创建Dataframes。每个镶木地板文件的大小约为250+ MB，但文件总数约为6k。我认为在创建DF＆amp ;;时创建约10K个任务的原因显然运行时间超过预期。

我想了解Spark的处理方式是如何影响它正在读取的文件的大小。更重要的是，HDFS块大小和文件大小大于或小于HDFS块大小会影响如何创建spark分区？如果是，那么如何;我需要了解粒度级细节。如果有人有任何具体的＆amp;与我所要求的背景的精确联系，这对理解有很大的帮助。