与Pyspark合并

时间:2016-12-09 20:06:11

标签: python hadoop pyspark pyspark-sql

我和Pyspark合作,我有Spark 1.6。我想将一些价值观归为一类。

+--------+-----+
|  Item  |value|
+--------+-----+
|  A     |  187|
|  B     |  200|
|  C     |    3|
|  D     |   10|

我会将所有项目的总价值减去10%(在这种情况下,C和D将分组为新值"其他")

所以,新表看起来像

+--------+-----+
|  Item  |value|
+--------+-----+
|  A     |  187|
|  B     |  200|
| Other  |   13|

有人知道一些功能或简单的方法吗? 非常感谢您的帮助

1 个答案:

答案 0 :(得分:2)

您可以过滤数据框两次,以获得仅包含您想要保留的值的数据框,以及仅包含其他值的数据框。对其他数据帧执行聚合以对它们求和,然后将两个数据帧合并在一起。根据数据,您可能希望在所有这些之前保留原始数据帧,以便不需要对其进行两次评估。