应用错误收集

我有一个pyspark Dataframe，它是用rdd reduceByKey方法创建的（因此有一列包含唯一的字符串）。

我希望该列可以快速访问此作业生成的parquet文件，并且在阅读此答案后，https://stackoverflow.com/a/48493772/4443226我发现我可以提供min和{{ 1}}实木复合地板元数据统计中的 binary （字符串）列的值。

因此，我决定max数据框（利用镶木地板），如下所示：

sort

运行data = spark.read.text(args.input) processed_data = data.rdd.map(parse_line).reduceByKey(reduce_id) df = parsed_data.toDF(["id", "meta"]).sort("id") df.write.parquet(args.output)之后是否不需要sort？还是可以通过另一种方式对数据进行分区，以允许通过密钥进行快速访问？

reduceByKey之后的数据帧排序

0 个答案: