我有一个由以下列组成的DataFrame td
:
In [111]: td.head(5)
Out[111]:
Date Time Price
0 2015-09-21 00:01:26 4303.00
1 2015-09-21 00:01:33 4303.00
2 2015-09-21 00:02:21 4303.50
3 2015-09-21 00:02:21 4303.50
4 2015-09-21 00:02:31 4303.25
我的目标是制作一个具有日期时间和价格的系列。
我试过了:
s = pd.Series(td['Price'], index=pd.to_datetime(td['Date'] + ' ' + td['Time']))
但得到结果:
>>> s
2015-09-21 00:01:26 NaN
2015-09-21 00:01:33 NaN
2015-09-21 00:02:21 NaN
2015-09-21 00:02:21 NaN
..
2015-09-25 16:59:58 NaN
2015-09-25 16:59:58 NaN
2015-09-25 16:59:58 NaN
2015-09-25 16:59:59 NaN
Name: Price, dtype: float64
所有价值来自"价格"是NaN。什么提示我做错了什么?
答案 0 :(得分:2)
从DataFrame列创建Series并传入索引时,该列将根据新索引进行重新索引。
在您的情况下,新创建的Datetime索引中的所有标签最初都不用于索引列td['Price']
,因此会返回一系列缺失(NaN
)值。
最简单的解决方案是传递td['Price'].values
代替:
>>> pd.Series(td['Price'].values, index=pd.to_datetime(td['Date']+' '+td['Time'])
2015-09-21 00:01:26 4303.00
2015-09-21 00:01:33 4303.00
2015-09-21 00:02:21 4303.50
2015-09-21 00:02:21 4303.50
2015-09-21 00:02:31 4303.25
...
使用td['Price'].values
意味着列中的值位于NumPy数组中:这没有索引,并且pandas不会尝试重新索引值。