Spark Filter产生的结果与groupby - count不同

时间:2017-01-28 21:12:36

标签: apache-spark pyspark

我正在使用pySpark。 以下代码让我感到困惑。谁能解释为什么会有不同的结果?

据我了解,以下结果应该相同。 谢谢!

train_df.groupBy("action").count().collect()

产生

[Row(action=u'purchase', count=9017), Row(action=u'browse', count=52205)]

这些计数(上述)是正确的并且已经过验证。

但如果我这样做:

print train_df.filter("action = 'purchase'").count()
print train_df.filter("action = 'browse'").count()

我明白了:

5739
20336

为什么这些数字不同?

0 个答案:

没有答案