应用错误收集

我有一个约有1M组的数据框，每个组包含约100条记录（行）。如何根据pyspark中的不同组进行采样，以便所选组仍具有完整的行？

一个小得多的例子：

+-----+---+
|group| x |
+-----+---+
|  1  |0.1|
|  1  |0.2|
|  2  |0.1|
|  2  |0.5|
|  2  |0.3|
|  3  |0.5|
|  4  |0.8|
|  4  |0.5|
+-----+---+

我想抽样，以便如果选择了第1组和第3组，我将从中获得完整的记录：

+-----+---+
|group| x |
+-----+---+
|  1  |0.1|
|  1  |0.2|
|  3  |0.5|
+-----+---+