我有一个约有1M组的数据框,每个组包含约100条记录(行)。如何根据pyspark中的不同组进行采样,以便所选组仍具有完整的行?
一个小得多的例子:
+-----+---+
|group| x |
+-----+---+
| 1 |0.1|
| 1 |0.2|
| 2 |0.1|
| 2 |0.5|
| 2 |0.3|
| 3 |0.5|
| 4 |0.8|
| 4 |0.5|
+-----+---+
我想抽样,以便如果选择了第1组和第3组,我将从中获得完整的记录:
+-----+---+
|group| x |
+-----+---+
| 1 |0.1|
| 1 |0.2|
| 3 |0.5|
+-----+---+