Question

我和Pyspark合作，我有Spark 1.6。我想将一些价值观归为一类。

+--------+-----+
|  Item  |value|
+--------+-----+
|  A     |  187|
|  B     |  200|
|  C     |    3|
|  D     |   10|

我会将所有项目的总价值减去10％（在这种情况下，C和D将分组为新值＆＃34;其他＆＃34;）

所以，新表看起来像

+--------+-----+
|  Item  |value|
+--------+-----+
|  A     |  187|
|  B     |  200|
| Other  |   13|

有人知道一些功能或简单的方法吗？非常感谢您的帮助

Answer 1

您可以过滤数据框两次，以获得仅包含您想要保留的值的数据框，以及仅包含其他值的数据框。对其他数据帧执行聚合以对它们求和，然后将两个数据帧合并在一起。根据数据，您可能希望在所有这些之前保留原始数据帧，以便不需要对其进行两次评估。