我有一个pyspark
Dataframe
,它是用rdd
reduceByKey
方法创建的(因此有一列包含唯一的字符串)。
我希望该列可以快速访问此作业生成的parquet
文件,并且在阅读此答案后,https://stackoverflow.com/a/48493772/4443226我发现我可以提供min
和{{ 1}}实木复合地板元数据统计中的 binary (字符串)列的值。
因此,我决定max
数据框(利用镶木地板),如下所示:
sort
运行data = spark.read.text(args.input)
processed_data = data.rdd.map(parse_line).reduceByKey(reduce_id)
df = parsed_data.toDF(["id", "meta"]).sort("id")
df.write.parquet(args.output)
之后是否不需要sort
?还是可以通过另一种方式对数据进行分区,以允许通过密钥进行快速访问?