这只是一个演示示例,但我们将在其他项目中有用。我想从Amazon s3存储桶下载常见的爬网数据。我有一个实木复合地板文件,在其中存储唯一的URL,文件的长度,gzip文件中的偏移量以及存储桶的路径。到目前为止,我所做的是将DataFrame分为6个分区,并运行下载作业以获取html文件。我注意到这样做并不是最好的选择,因为每个任务的负载并不取决于分区大小,而是取决于文件的累积长度(文件越大,下载和处理所花费的时间越多。 )。 pyspark中是否有一种方法可以根据某些列的值来创建分区(可能不相等)?