应用错误收集

如何对火花进行分位 - 离散化？

时间：2017-09-14 14:16:49

标签： apache-spark machine-learning feature-engineering bigdata

我想在不使用Spark.ML的情况下将RDD [Float]分离离散为10件，所以我需要计算10-Percentile，20th-Percentile ... 80th-Percentile，90-Percentile

数据集非常大，无法收集到本地！

有没有有效的算法来解决这个问题？

1 个答案:

答案 0 :(得分：0)

已经提供此功能，您正在使用Spark版本＆gt; 2.0。您必须将RDD [Float]转换为数据帧。使用approxQuantile(String col, double[] probabilities, double relativeError)中的DataFrameStatFunctions。从文档说：

此方法实现了Greenwald-Khanna算法的变体（有一些速度优化）。该算法首次出现在格林沃尔德的节省空间的在线计算分位数摘要和Khanna

RWeka将结果透明化
如何离散数据（SIFT功能）？
如何在多列上使用spark quantilediscretizer
如何对火花进行分位 - 离散化？
如何离职小时？
在双精度数组上的近似分位数 - Spark数据帧
使用SparkR离散化变量
如何离散化信号？
如何在GAMS中离散时间

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？