我试图在R中使用BTYD软件包来模拟客户的生命周期价值,但是为重复交易分割数据的步骤似乎花了太长时间。
我有一个行数不到五十万的数据框,我已经将customer_id(曾经是长字符串)替换为整数,并且它仍然需要很长时间。
这是str(df)的精确读数
'data.frame': 466617 obs. of 3 variables:
$ date : Date, format: "2015-04-05" "2015-04-05" ...
$ sales: int 55 69 2 52 39 62 10 20 25 53 ...
$ cust : int 1 2 3 4 5 6 7 8 9 10 ...
当我运行dc.SplitUpElogForRepeatTrans(df)时,这似乎永远存在。
对于之前使用过该软件包的人来说,对于这个软件包来说,有50万行被认为太多了吗?有什么方法可以加快这个过程或绕过它?
答案 0 :(得分:2)
我有同样的问题,因为我有几百万行。我发现函数driver.execute_script("$('#recaptcha-anchor').setAttribute('aria-checked','true');")
非常慢,所以我关闭了some data.table
magic的循环。速度差异很大。