应用错误收集

从桶中读取时的火花分区数 - S3 - GCS

时间：2017-12-11 10:09:53

标签： apache-spark amazon-s3 google-cloud-storage partitioning

S3和GCS不是像HDFS那样的块存储，所以Spark从这些源读取时创建分区的方式对我来说并不是那么清楚。我现在正在阅读GCS，但我得到2个分区用于小文件（10个字节），也用于中等文件100 MB。

有没有人解释？

1 个答案:

答案 0 :(得分：0)

通常它是一个配置选项，“分区大小有多大”。