apache-spark - 如何为大型数据帧更快地触发count（）？

我有数据流水线运算符用于收集数据指标。我要为其收集指标的数据产品称为foo

我有以下

`foo.select(foo.id).count()` => 2M+
`foo.filter(foo.id.startswith("foobar")).count() => 1M

我做了很多其他操作（计数并收集） count()花费很长时间：（（大约30分钟）

人们通常如何解决这种性质的问题？另外，我也不关心确切的count。我需要大约（+ -50,000）

我也尝试过countApprox，但是所花费的时间没有变化

配置

Number of cores = 150
driver-memory = 15g
executory-memory = 15g