Question

我有Pandas DataFrame（从.csv加载），日期时间作为索引..每天都有/必须有一个条目。问题是我有差距，即有几天我根本没有数据。在间隙中插入行（天）的最简单方法是什么？还有一种方法来控制作为数据插入列中的内容！假设0或复制上一天信息或填充从上限日期到下一日期数据值的滑动增加/减少值。

感谢

以下是01-03和01-04的示例：

In [60]: df['2015-01-06':'2015-01-01']
Out[60]: 
           Rate  High (est)  Low (est)
Date                                      
2015-01-06  1.19643      0.0000     0.0000
2015-01-05  1.20368      1.2186     1.1889
2015-01-02  1.21163      1.2254     1.1980
2015-01-01  1.21469      1.2282     1.2014

仍然在尝试，但这似乎解决了这个问题：

df.set_index(pd.DatetimeIndex(df.Date),inplace=True)

然后重新采样...导致带有header-col-name Date的.csv的原因实际上并不是创建date-time-index，而是冻结列表无论这意味着什么。 resample（）期待：if isinstance（ax，DatetimeIndex）：.....

这是我的最终解决方案：

  #make dates the index
  self.df.set_index(pd.DatetimeIndex(self.df.Date), inplace=True)
  #fill the gaps
  self.df = self.df.resample('D',fill_method='pad')
  #fix the Date column
  self.df.Date = self.df.index.values

我必须修复Date列，因为resample（）只允许你填充它。它正确地修复了索引，所以我可以用它来修复Date列。

以下是修正后的数据：

2015-01-29 2015-01-29  1.13262      0.0000     0.0000
2015-01-30 2015-01-30  1.13161      1.1450     1.1184
2015-01-31 2015-01-31  1.13161      1.1450     1.1184
2015-02-01 2015-02-01  1.13161      1.1450     1.1184

01-30,01-31是新生成的数据。

Answer 1

您可以在白天重新采样，例如如果每天有多个条目，则使用mean：

df.resample('D', how='mean')

然后，您可以ffill将NaN替换为前几天的结果。

请参阅文档中的up and down sampling。

填写pandas数据框中的日期空白

1 个答案: