我在pandas DataFrame中有历史交易数据,其中包含由DateTimeIndex索引的价格和交易量列。
例如:
>>> print df.tail()
price volume
2014-01-15 14:29:54+00:00 949.975 0.01
2014-01-15 14:29:59+00:00 941.370 0.01
2014-01-15 14:30:17+00:00 949.975 0.01
2014-01-15 14:30:24+00:00 941.370 0.01
2014-01-15 14:30:36+00:00 949.975 0.01
现在,我可以使用df.resample(freq, how={'price': 'ohlc'})
将其重新采样为OHLC数据,这很好,但我也想要包含该卷。
当我尝试df.resample(freq, how={'price': 'ohlc', 'volume': 'sum'})
时,我得到:
ValueError: Shape of passed values is (2,), indices imply (2, 95)
我不太确定我的数据集有什么问题,或者为什么会失败。任何人都可以帮忙解释一下吗?非常感谢。
答案 0 :(得分:11)
问题不在于重新采样,而在于尝试连接MultiIndex(来自价格OHLC),使用常规索引(对于音量总和)。
In [17]: df
Out[17]:
price volume
2014-01-15 14:29:54 949.975 0.01
2014-01-15 14:29:59 941.370 0.01
2014-01-15 14:30:17 949.975 0.01
2014-01-15 14:30:24 941.370 0.01
2014-01-15 14:30:36 949.975 0.01
[5 rows x 2 columns]
In [18]: df.resample('30s', how={'price': 'ohlc'}) # Note the MultiIndex
Out[18]:
price
open high low close
2014-01-15 14:29:30 949.975 949.975 941.370 941.370
2014-01-15 14:30:00 949.975 949.975 941.370 941.370
2014-01-15 14:30:30 949.975 949.975 949.975 949.975
[3 rows x 4 columns]
In [19]: df.resample('30s', how={'volume': 'sum'}) # Regular Index for columns
Out[19]:
volume
2014-01-15 14:29:30 0.02
2014-01-15 14:30:00 0.02
2014-01-15 14:30:30 0.01
[3 rows x 1 columns]
我猜你可以手动为(volume, sum)
创建一个MultiIndex,然后连续:
In [34]: vol = df.resample('30s', how={'volume': 'sum'})
In [35]: vol.columns = pd.MultiIndex.from_tuples([('volume', 'sum')])
In [36]: vol
Out[36]:
volume
sum
2014-01-15 14:29:30 0.02
2014-01-15 14:30:00 0.02
2014-01-15 14:30:30 0.01
[3 rows x 1 columns]
In [37]: price = df.resample('30s', how={'price': 'ohlc'})
In [38]: pd.concat([price, vol], axis=1)
Out[38]:
price volume
open high low close sum
2014-01-15 14:29:30 949.975 949.975 941.370 941.370 0.02
2014-01-15 14:30:00 949.975 949.975 941.370 941.370 0.02
2014-01-15 14:30:30 949.975 949.975 949.975 949.975 0.01
[3 rows x 5 columns]
但如果resample可以自动处理这个问题,那可能会更好。
答案 1 :(得分:1)
您现在可以在更高版本的Pandas中执行此操作
示例:Pandas版本0.22.00 df.resample('30S').mean()