我有Pandas DataFrame(从.csv加载),日期时间作为索引..每天都有/必须有一个条目。 问题是我有差距,即有几天我根本没有数据。 在间隙中插入行(天)的最简单方法是什么?还有一种方法来控制作为数据插入列中的内容!假设0或复制上一天信息或填充从上限日期到下一日期数据值的滑动增加/减少值。
感谢
以下是01-03和01-04的示例:
In [60]: df['2015-01-06':'2015-01-01']
Out[60]:
Rate High (est) Low (est)
Date
2015-01-06 1.19643 0.0000 0.0000
2015-01-05 1.20368 1.2186 1.1889
2015-01-02 1.21163 1.2254 1.1980
2015-01-01 1.21469 1.2282 1.2014
仍然在尝试,但这似乎解决了这个问题:
df.set_index(pd.DatetimeIndex(df.Date),inplace=True)
然后重新采样...导致带有header-col-name Date的.csv的原因实际上并不是创建date-time-index,而是冻结列表无论这意味着什么。 resample()期待:if isinstance(ax,DatetimeIndex):.....
这是我的最终解决方案:
#make dates the index
self.df.set_index(pd.DatetimeIndex(self.df.Date), inplace=True)
#fill the gaps
self.df = self.df.resample('D',fill_method='pad')
#fix the Date column
self.df.Date = self.df.index.values
我必须修复Date列,因为resample()只允许你填充它。 它正确地修复了索引,所以我可以用它来修复Date列。
以下是修正后的数据:
2015-01-29 2015-01-29 1.13262 0.0000 0.0000
2015-01-30 2015-01-30 1.13161 1.1450 1.1184
2015-01-31 2015-01-31 1.13161 1.1450 1.1184
2015-02-01 2015-02-01 1.13161 1.1450 1.1184
01-30,01-31是新生成的数据。
答案 0 :(得分:7)
您可以在白天重新采样,例如如果每天有多个条目,则使用mean:
df.resample('D', how='mean')
然后,您可以ffill
将NaN替换为前几天的结果。
请参阅文档中的up and down sampling。