写入数据时如何使用“ Salt”进行火花重新分区

时间:2019-06-27 09:44:29

标签: apache-spark

task visialization1[![task visialization2最近,我在写数据时遇到数据争用问题,我在写数据时要根据年,月,周进行重新分区,如下所示-

<uses-permission android:name="android.permission.INTERNET"/>

其中一项任务花费的时间更长且从未完成,而另一项任务则在几分钟之内成功完成,因为要处理的数据更少。

请指导我如何使用盐键以及年份月份和星期字段进行重新分区。

1 个答案:

答案 0 :(得分:1)

如果您仍然感兴趣:

您可以创建一个随机列(例如# print(df2) 0 1 2 3 4 5 6 7 0 20160101 000 7.977169 109404.0 20160101 100 4.028678 814.0 1 20160101 100 8.420204 128546.0 20160101 200 4.673662 2152.0 2 20160101 200 9.515370 165931.0 20160101 300 8.019863 8100.0 ... 8780 20160101 300 4.198906 11371.0 20161231 2100 0.995571 131.0 8781 20161231 2100 4.787433 19083.0 20161231 2200 1.029809 NaN 8782 20161231 2200 3.987506 9354.0 20161231 2300 0.900942 NaN 8783 20161231 2300 3.284947 1815.0 20170101 0 0.899262 NaN ),但从ui的显示来看,也值得深入研究当前数据。

很有可能您的数据中有很大一部分包含一些用于创建年,月,周列的默认值(如果不是null)(例如1/1/70)。