从桶中读取时的火花分区数 - S3 - GCS

时间:2017-12-11 10:09:53

标签: apache-spark amazon-s3 google-cloud-storage partitioning

S3和GCS不是像HDFS那样的块存储,所以Spark从这些源读取时创建分区的方式对我来说并不是那么清楚。 我现在正在阅读GCS,但我得到2个分区用于小文件(10个字节),也用于中等文件100 MB。

有没有人解释?

1 个答案:

答案 0 :(得分:0)

通常它是一个配置选项,“分区大小有多大”。