Question

嗨，我关注rdd：

标题：

id |类别|日期|名称|年龄

rdd的内容

1|b|12-10-2015|David|20
2|c|12-10-2015|Moses|40
3|b|18-12-2016|Tom|30
4|c|18-12-2016|Bill|60

我想按类别和日期对数据进行分区，并按如下方式保存文件：

12102015_b

1|b|12-10-2015|David|20

12102015_c

2|c|12-10-2015|Moses|40

18122016_b

3|b|18-12-2016|Tom|30

18122016_c

4|c|18-12-2016|Bill|60

我可以为此得到任何建议吗？在此先感谢！

Answer 1

假设您在pyspark数据框df中拥有上述所有数据。

然后，您可以使用下面的语句根据日期和类别对数据进行分区（但是，您可以根据业务逻辑确定顺序。），然后以各种不同的格式保存dataFrame。但是，我在下面的示例中使用的是csv。

df.write.partitionBy("date", "category").csv("location_of_path")

您可以在此处找到csv，parquet，partitionBy的参考。

希望这会有所帮助。

此致

Neeraj