我有数据流水线运算符用于收集数据指标。
我要为其收集指标的数据产品称为foo
我有以下
`foo.select(foo.id).count()` => 2M+
`foo.filter(foo.id.startswith("foobar")).count() => 1M
我做了很多其他操作(计数并收集)
count()
花费很长时间:((大约30分钟)
人们通常如何解决这种性质的问题?
另外,我也不关心确切的count
。我需要大约(+ -50,000)
我也尝试过countApprox
,但是所花费的时间没有变化
配置
Number of cores = 150
driver-memory = 15g
executory-memory = 15g