Question

我有一个10000行的数据文件。该文件包含100行的块，在第一列中具有不同的因子，我使用ddply来处理它们。例如：

result.df = ddply(data.df, "V1", calc_stuff, .progress = "text")
message("done!")

ddply进度条大约需要一分钟才能达到100％。然而，R确实＆＃34;东西＆＃34;在处理脚本中的下一行之前另外5-7分钟（在此示例中打印消息）。

那段时间R在做什么？将结果收集到＆＃34; result.df＆＃34;？我可以以某种方式加快速度吗？我有很多这样的文件要处理。

Answer 1

app = Celery('my_proj')采用以下方法：

进度条可能涉及第2步，并说明处理每个块的距离。第3步是您的情况需要时间，并且不包含在进度条中。

为了加快分析速度，我将停止使用ddply并开始使用plyr。这比dplyr快几个数量级，并且是plyr的后继者。有关更多信息，请参阅tutorial I wrote。

您的代码示例将归结为：

plyr