Sparklyr加权中位数计算

时间:2018-07-24 15:34:58

标签: apache-spark statistics median sparklyr

我正在尝试计算Sparklyr中的加权平均值,但是R中的weighted.median函数似乎与Sparklyr不兼容。我尝试使用collect()命令将其从sparklyr中拉出,然后使用常规r进行加权中值,但是由于数据非常庞大,它实际上需要在分布式Hadoop中使用Sparklyr,因此它挂起然后由于内存不足错误而崩溃环境。我尝试将列和行的数量减少到最低限度,但是我无法弄清楚如何在不将其移出Sparklyr的情况下获得一个加权的中值。

我没有任何代码可以显示,因为当我拉出全部数据时,将其从Spark中拉出并放入单个服务器上的常规R中的方法崩溃了。将其从Sparklyr移至常规R并不是可行的方法。

0 个答案:

没有答案