我有一个充满时间序列数据的巨大文件,唯一的列是时间 整个数据集中唯一的列是时间列
time
2017-02-01 00:11:55
2017-02-01 00:21:04
它是100,000行,有1列,这些是地理位置的时间戳,我试图根据30分钟的时间间隔聚合这些时间戳,然后想象它们,是否有人可以告诉我如何做到最好这与机器学习实践
如果我执行data_file.dtypes,则返回一个对象
time object
如果我尝试重新采样,我会收到此错误:TypeError:仅对DatetimeIndex,TimedeltaIndex或PeriodIndex有效,但得到了'Index'的实例
答案 0 :(得分:0)
您最好显示完整数据(不仅仅是时间列),无论如何,我会向您展示简单的resample
pandas用法。
import pandas as pd
# Sample data
df = pd.DataFrame(pd.date_range('2017-02-01 00:11:55', '2017-12-31 12:30:00', freq='7Min'), columns=["TS"])
df['Value'] = 1
# Resample
print(df.set_index('TS').resample('30Min').sum())
Value
TS
2017-02-01 00:00:00 3
2017-02-01 00:30:00 4
2017-02-01 01:00:00 5
2017-02-01 01:30:00 4
2017-02-01 02:00:00 4
2017-02-01 02:30:00 5
...