Question

我每天都在使用PySpark处理文件，以收集有关通过网络进行设备导航的信息。在每个月的月底，我想使用窗口功能以获取每个设备的导航历程。即使有很多节点，这也是一个非常缓慢的处理过程，因此我正在寻找加速它的方法。

我的想法是对数据进行分区，但是我有20亿个不同的键，因此partitionBy似乎不合适。甚至bucketBy也不是一个好选择，因为我每天都会创建n存储桶，因此不会附加文件，但是每天都会创建文件的x部分。

有人可以解决吗？

这是每天导出的示例（在每个实木复合地板文件中，我们发现9个分区）：

这是我们在每个月的开始时启动的partitionBy查询（compute_visit_number和compute_session_number是我在笔记本上创建的两个udf）：

Answer 1

您要确保每个设备数据都在同一分区中，以防止在执行窗口功能时进行交换。或者至少将数据可能位于的分区数量最小化。

要执行此操作，我将在写入数据时创建一个名为partitionKey的列-该列包含mc_device列上的mod-其中mod的编号是所需的分区数。基于该数字的群集大小将运行月末查询。（如果mc_device不是整数，请先创建一个校验和。）

如果仍然需要，可以在日期列上创建辅助分区。

您的月末查询应更改：

w = Windows.partitionBy('partitionKey', 'mc_device').orderBy(event_time')

如果将日期保留为第二分区列，则将数据框重新分区为仅partitionKey：

df = df.repartition('partitionKey')

这时，每个设备的数据将位于同一分区中，不需要进行任何交换。排序应该更快，并且您的查询有望在合理的时间内完成。

如果仍然很慢，则在写入数据时需要更多分区。