保存/加载data.table

时间:2015-11-21 04:59:25

标签: r data.table

我想要做的是使用最快的方法来存储data.table以进行进一步处理。

有些事情:

  1. 从CSV / RDS中读取原始数据。
  2. 将其转换为data.table
  3. 将其保存为针对重新阅读优化的格式(RDS似乎不适用于data.table,是吗?还有其他二元选项吗?)
  4. 继续使用第3步中的文件进行处理,直接将其作为data.table一遍又一遍地读取,进行切片,分组,绘图,......
  5. 第3步的最佳选择是什么?

1 个答案:

答案 0 :(得分:2)

好的,这里有一些关于我使用的特定数据集的测量结果。它最初是在RDS中,读取它需要60多秒。

之后,DT被保存为内部XDR以及SQLite数据库,两者都是未压缩的。

  1. save()/ load()对速度最快,加载时间为11.7-11.8秒

  2. SQLite(dbReadTable)非常接近,12.0-12.1秒。使用DB的文件大小减小了约30%,因此我可以想象SQLite比save()/ load()更快的情况。

  3. 现在save()/ load()适用于我,它也保留了类