使用2个pandas列作为np.timedelta的参数

时间:2014-01-10 03:42:00

标签: python numpy pandas apply

简单问题:

In [1]:
df = DataFrame({'value':[4,4,4],'unit':['D','W','Y']})
df

Out[1]:
     unit   value
0    D      4
1    W      4
2    Y      4

我可以用这种方式创建timedeltas(当然):

In [2]:
timedelta64(4, 'D')

Out[2]:
numpy.timedelta64(4,'D')

但是我无法遍历DataFrame列以获得带有timedeltas的结果系列:

def f(x):    
    return timedelta64(x['value'], x['unit'])

df.apply(f, axis=1)

相反,我得到了:

TypeError: don't know how to convert scalar number to float

修改

这也不起作用,并返回相同的错误:

df['arg'] = zip(df.value, df.unit)
df.arg.apply(lambda x: timedelta64(x[0], x[1]))

2 个答案:

答案 0 :(得分:3)

所以你的代码适合我。

df = pd.DataFrame({'value':[4,4,4],'unit':['D','W','Y']})
df.apply(f, axis=1)
0     4 days
1    4 weeks
2    4 years
dtype: object

这是我的版本:

numpy.__version__
'1.8.0'
pandas.__version__
'0.13.0rc1-32-g81053f9'

我确实发现了一个可能与您的问题相关的错误。您可能会检查是否有numpy 1.7,如果是这样,请升级到1.8并查看是否可以解决问题。祝你好运:)

https://github.com/pydata/pandas/issues/5689

答案 1 :(得分:1)

在0.13中,使用新的pd.to_timedelta:

支持此功能
In [24]: df = DataFrame({'value':[4,4,4],'unit':['D','W','Y']})

In [25]: pd.to_timedelta(df.apply(lambda x: np.timedelta64(x['value'],x['unit']), axis=1))
Out[25]: 
0      4 days, 00:00:00
1     28 days, 00:00:00
2   1460 days, 23:16:48
dtype: timedelta64[ns]