Question

我试图在R中使用BTYD软件包来模拟客户的生命周期价值，但是为重复交易分割数据的步骤似乎花了太长时间。

我有一个行数不到五十万的数据框，我已经将customer_id（曾经是长字符串）替换为整数，并且它仍然需要很长时间。

这是str（df）的精确读数

'data.frame':   466617 obs. of  3 variables:
 $ date : Date, format: "2015-04-05" "2015-04-05" ...
 $ sales: int  55 69 2 52 39 62 10 20 25 53 ...
 $ cust : int  1 2 3 4 5 6 7 8 9 10 ...

当我运行dc.SplitUpElogForRepeatTrans（df）时，这似乎永远存在。

对于之前使用过该软件包的人来说，对于这个软件包来说，有50万行被认为太多了吗？有什么方法可以加快这个过程或绕过它？

Answer 1

我有同样的问题，因为我有几百万行。我发现函数driver.execute_script("$('#recaptcha-anchor').setAttribute('aria-checked','true');")非常慢，所以我关闭了some data.table magic的循环。速度差异很大。

R dc.SplitUpElogForRepeatTrans中的BTYD包太慢了

1 个答案: