reduceByKey之后的数据帧排序

时间:2018-11-02 17:42:50

标签: apache-spark pyspark apache-spark-sql rdd parquet

我有一个pyspark Dataframe,它是用rdd reduceByKey方法创建的(因此有一列包含唯一的字符串)。

我希望该列可以快速访问此作业生成的parquet文件,并且在阅读此答案后,https://stackoverflow.com/a/48493772/4443226我发现我可以提供min和{{ 1}}实木复合地板元数据统计中的 binary (字符串)列的值。

因此,我决定max数据框(利用镶木地板),如下所示:

sort

运行data = spark.read.text(args.input) processed_data = data.rdd.map(parse_line).reduceByKey(reduce_id) df = parsed_data.toDF(["id", "meta"]).sort("id") df.write.parquet(args.output) 之后是否不需要sort?还是可以通过另一种方式对数据进行分区,以允许通过密钥进行快速访问?

0 个答案:

没有答案