我正在编写一个函数来从数组中提取日期时间的值。我希望该函数在Pandas DataFrame或numpy ndarray上运行。
应该以与Python日期时间属性相同的方式返回值,例如
from datetime import datetime
dt = datetime(2016, 10, 12, 13)
dt.year
=> 2016
dt.second
=> 0
对于DataFrame,使用applymap()
相当容易处理(虽然可能有更好的方法)。我使用vectorize()
为numpy ndarrays尝试了相同的方法,我遇到了问题。而不是我期望的值,我最终得到非常大的整数,有时是负数。
这一开始非常令人费解,但我弄清楚发生了什么:向量化函数使用item
而不是__get__
来从ndarray中获取值。这似乎会自动将每个datetime64
对象转换为long
:
nd[1][0]
=> numpy.datetime64('1986-01-15T12:00:00.000000000')
nd[1].item()
=> 506174400000000000L
长期似乎是自纪元(1970-01-01T00:00:00)以来的纳秒数。沿着该行的某处,值被转换为整数并且它们溢出,因此是负数。
这就是问题所在。有人可以帮我解决吗?我唯一能想到的是手动进行转换,但这实际上意味着重新实现datetime
模块的一大块。
是否有vectorize
的替代方法不使用item()
?
谢谢!
最小代码示例:
## DataFrame works fine
import pandas as pd
from datetime import datetime
df = pd.DataFrame({'dts': [datetime(1970, 1, 1, 1), datetime(1986, 1, 15, 12),
datetime(2016, 7, 15, 23)]})
exp = pd.DataFrame({'dts': [1, 15, 15]})
df_func = lambda x: x.day
out = df.applymap(df_func)
assert out.equals(exp)
## numpy ndarray is more difficult
from numpy import datetime64 as dt64, timedelta64 as td64, vectorize # for brevity
# The unary function is a little more complex, especially for days and months where the minimum value is 1
nd_func = lambda x: int((dt64(x, 'D') - dt64(x, 'M') + td64(1, 'D')) / td64(1, 'D'))
nd = df.as_matrix()
exp = exp.as_matrix()
=> array([[ 1],
[15],
[15]])
# The function works as expected on a single element...
assert nd_func(nd[1][0]) == 15
# ...but not on an ndarray
nd_vect = vectorize(nd_func)
out = nd_vect(nd)
=> array([[ -105972749999999],
[ 3546551532709551616],
[-6338201187830896640]])
答案 0 :(得分:3)
在Py3中,错误为OverflowError: Python int too large to convert to C long
。
In [215]: f=np.vectorize(nd_func,otypes=[int])
In [216]: f(dts)
...
OverflowError: Python int too large to convert to C long
但如果我更改日期时间单位,则运行正常
In [217]: f(dts.astype('datetime64[ms]'))
Out[217]: array([ 1, 15, 15])
我们可以更深入地研究这一点,但这似乎是最简单的解决方案。
请记住,vectorize
是一项便利功能;它使迭代多维度变得更容易。但对于1d阵列,它基本上是
np.array([nd_func(i) for i in dts])
但请注意,我们不必使用迭代:
In [227]: (dts.astype('datetime64[D]') - dts.astype('datetime64[M]') + td64(1,'D')) / td64(1,'D').astype(int)
Out[227]: array([ 1, 15, 15], dtype='timedelta64[D]')