我和Pyspark合作,我有Spark 1.6。我想将一些价值观归为一类。
+--------+-----+
| Item |value|
+--------+-----+
| A | 187|
| B | 200|
| C | 3|
| D | 10|
我会将所有项目的总价值减去10%(在这种情况下,C和D将分组为新值"其他")
所以,新表看起来像
+--------+-----+
| Item |value|
+--------+-----+
| A | 187|
| B | 200|
| Other | 13|
有人知道一些功能或简单的方法吗? 非常感谢您的帮助
答案 0 :(得分:2)
您可以过滤数据框两次,以获得仅包含您想要保留的值的数据框,以及仅包含其他值的数据框。对其他数据帧执行聚合以对它们求和,然后将两个数据帧合并在一起。根据数据,您可能希望在所有这些之前保留原始数据帧,以便不需要对其进行两次评估。