标签: apache-spark pyspark spark-streaming
如果流是全部浮点值,如何获得标准统计数据,如平均值,标准偏差,中位数,峰度和偏度。
我需要处理流数据的统计信息,因此这个问题。我探讨了总结'但是,如何自定义它,或者如何提取窗口流的汇总值。
我尝试将其转换为pandas数据框,但它变得太慢了。