应用错误收集

我正在使用pySpark。以下代码让我感到困惑。谁能解释为什么会有不同的结果？

据我了解，以下结果应该相同。谢谢！

train_df.groupBy("action").count().collect()

产生

[Row(action=u'purchase', count=9017), Row(action=u'browse', count=52205)]

这些计数（上述）是正确的并且已经过验证。

但如果我这样做：

print train_df.filter("action = 'purchase'").count()
print train_df.filter("action = 'browse'").count()

我明白了：

5739
20336

为什么这些数字不同？