如何在R中使用poweRlaw包用于非常大的数据集?

时间:2016-10-09 16:47:34

标签: r power-law bigdata

我正在为一个4500万行向量拟合幂律,我在R中使用了poweRlaw包:https://arxiv.org/pdf/1407.3492.pdf

该过程中计算量最大的部分是估计下限,这是使用estimate_xmin()函数完成的。这花费了很多时间。

代码是这样的(w是向量而c_pl来自“连续幂律”):

c_pl <- conpl$new(w)
est <- estimate_xmin(c_pl)
c_pl$setXmin(est)

我想知道如何以最小化处理时间的方式使用estimate_xmin()函数(可能是并行计算?)我正在使用16核和64GB RAM的AWS实例。感谢。

1 个答案:

答案 0 :(得分:1)

Array(imagedata).sort({ $0.0 < $1.0 })花费这么长时间的原因是因为它正在尝试estimate_xmin的所有可能值。该函数有一个参数xmin,可用于截断此搜索,例如

xmins

将在10,100,1000和10000中找到最佳xmin。