我正在使用pySpark。 以下代码让我感到困惑。谁能解释为什么会有不同的结果?
据我了解,以下结果应该相同。 谢谢!
train_df.groupBy("action").count().collect()
产生
[Row(action=u'purchase', count=9017), Row(action=u'browse', count=52205)]
这些计数(上述)是正确的并且已经过验证。
但如果我这样做:
print train_df.filter("action = 'purchase'").count()
print train_df.filter("action = 'browse'").count()
我明白了:
5739
20336
为什么这些数字不同?