有没有办法计算并以日期时间格式返回日期时间列的中位数? 我想计算python中以datetime64 [ns]格式表示的列的中位数。以下是该列的示例:
df['date'].head()
0 2017-05-08 13:25:13.342
1 2017-05-08 16:37:45.545
2 2017-01-12 11:08:04.021
3 2016-12-01 09:06:29.912
4 2016-06-08 03:16:40.422
名称:新近度,dtype:datetime64 [ns]
我的目标是使中位数与上面的日期列具有相同的日期时间格式:
尝试转换为np.array:
median_ = np.median(np.array(df['date']))
但是这会引发错误:
TypeError: ufunc add cannot use operands with types dtype('<M8[ns]') and dtype('<M8[ns]')
转换为int64,然后计算中位数并尝试返回格式到datetime不起作用
df['date'].astype('int64').median().astype('datetime64[ns]')
答案 0 :(得分:5)
您还可以尝试使用一些转换进行分位数(0.5),如果数据帧的长度是偶数,则与中位数不完全相同,但这可能就足够了:
df['date'].astype('datetime64[ns]').quantile(.5)
答案 1 :(得分:3)
如何才能获得中间值?
dates = list(df.sort('date')['date'])
print dates[len(dates)//2]
如果表格已排序,您甚至可以跳过一行。
答案 2 :(得分:2)
即将结束,median()
返回float
,因此首先将其转换为int
:
import math
median = math.floor(df['date'].astype('int64').median())
然后将int
代表日期转换为datetime64
:
result = np.datetime64(median, "ns") #unit: nanosecond