如何为大型数据帧更快地触发count()?

时间:2018-07-30 23:39:41

标签: apache-spark pyspark

我有数据流水线运算符用于收集数据指标。 我要为其收集指标的数据产品称为foo

我有以下

`foo.select(foo.id).count()` => 2M+
`foo.filter(foo.id.startswith("foobar")).count() => 1M

我做了很多其他操作(计数并收集) count()花费很长时间:((大约30分钟)

人们通常如何解决这种性质的问题? 另外,我也不关心确切的count。我需要大约(+ -50,000)

我也尝试过countApprox,但是所花费的时间没有变化

配置

Number of cores = 150
driver-memory = 15g
executory-memory = 15g

0 个答案:

没有答案