应用错误收集

这只是一个演示示例，但我们将在其他项目中有用。我想从Amazon s3存储桶下载常见的爬网数据。我有一个实木复合地板文件，在其中存储唯一的URL，文件的长度，gzip文件中的偏移量以及存储桶的路径。到目前为止，我所做的是将DataFrame分为6个分区，并运行下载作业以获取html文件。我注意到这样做并不是最好的选择，因为每个任务的负载并不取决于分区大小，而是取决于文件的累积长度（文件越大，下载和处理所花费的时间越多。）。 pyspark中是否有一种方法可以根据某些列的值来创建分区（可能不相等）？

基于累积列值的不相等分区

0 个答案: