标签: apache-spark amazon-s3 google-cloud-storage partitioning
S3和GCS不是像HDFS那样的块存储,所以Spark从这些源读取时创建分区的方式对我来说并不是那么清楚。 我现在正在阅读GCS,但我得到2个分区用于小文件(10个字节),也用于中等文件100 MB。
有没有人解释?
答案 0 :(得分:0)
通常它是一个配置选项,“分区大小有多大”。