如何在pyspark中采样组?

时间:2019-02-14 21:25:56

标签: pyspark

我有一个约有1M组的数据框,每个组包含约100条记录(行)。如何根据pyspark中的不同组进行采样,以便所选组仍具有完整的行?

一个小得多的例子:

+-----+---+
|group| x |
+-----+---+
|  1  |0.1|
|  1  |0.2|
|  2  |0.1|
|  2  |0.5|
|  2  |0.3|
|  3  |0.5|
|  4  |0.8|
|  4  |0.5|
+-----+---+

我想抽样,以便如果选择了第1组和第3组,我将从中获得完整的记录:

+-----+---+
|group| x |
+-----+---+
|  1  |0.1|
|  1  |0.2|
|  3  |0.5|
+-----+---+

0 个答案:

没有答案