如何在几分钟内对时间序列数据集进行采样

时间:2017-01-16 12:36:15

标签: r data.table

我有时间序列传感器数据,以30秒的间隔记录如下:

目:

   temperature humidity    light voltage time
1:     19.8071 37.61155 137.5400 2.69124    0
2:     19.7336 37.09330  71.7600 2.69964   30
3:     19.6160 37.57370  97.5200 2.69964   30
4:     19.7728 37.16200 143.5200 2.71196   60
5:     20.2040 36.88710  50.6000 2.69964   60
6:     19.0476 40.09450 110.4724 2.80151   90

这是一个非常大的数据集,拥有超过20亿条记录。我需要以5分钟的间隔对数据进行采样,以减小数据集的大小。

1 个答案:

答案 0 :(得分:0)

我们可以尝试使用%%。由于初始数据集为data.table,我们可以使用data.table方法提高效率

DT[!time %% 300]