datetime列python的百分位数

时间:2017-08-17 14:15:39

标签: python pandas datetime percentile

是否有办法计算具有日期时间格式的数据框列的百分位数,同时仍保留日期时间格式(Y-m-d H:M:S)并且未转换为百分位数值的秒数? 日期时间格式的数据示例

df: 
0   2016-07-31 08:00:00
1   2016-07-30 14:30:00
2   2006-06-24 14:15:00
3   2016-07-15 08:15:45
4   2016-08-01 23:50:00

3 个答案:

答案 0 :(得分:1)

datetime列上的

describe()方法与整数列或浮点列的工作方式相同

因此我们可以创建自定义方法来执行相同的操作:

import pandas as pd
from datetime import timedelta
from datetime import datetime

base = datetime.now()
date_list = [base - timedelta(days=x) for x in range(0, 20)]    
df = pd.DataFrame.from_dict({'Date': date_list})

df

                          Date
0   2017-08-17 21:32:54.044948
1   2017-08-16 21:32:54.044948
2   2017-08-15 21:32:54.044948
3   2017-08-14 21:32:54.044948

def describe_datetime(dataframe, column, percentiles=[i/10 for i in range(1,11)]):
    new_date = dataframe[column].dt.strftime('%Y-%m-%d').sort_values().values
    length = len(new_date)
    for percentile in percentiles:
        print(percentile, ':', new_date[int(percentile * length)-1])

describe_datetime(df, 'Date')

输出:

0.1 : 2017-07-30
0.2 : 2017-08-01
0.3 : 2017-08-03
0.4 : 2017-08-05
0.5 : 2017-08-07
0.6 : 2017-08-09
0.7 : 2017-08-11
0.8 : 2017-08-13
0.9 : 2017-08-15
1.0 : 2017-08-17

答案 1 :(得分:1)

有一个内置函数quantile可用于此目的。让

df = pd.Series(['2016-07-31 08:00:00', '2016-07-30 14:30:00', '2006-06-24 14:15:00', '2016-07-15 08:15:45', '2016-08-01 23:50:00'])
df
0   2016-07-31 08:00:00
1   2016-07-30 14:30:00
2   2006-06-24 14:15:00
3   2016-07-15 08:15:45
4   2016-08-01 23:50:00

然后

>>> df.quantile(0.5)
Timestamp('2016-07-30 14:30:00')

另请参阅官方文档

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.quantile.html

答案 2 :(得分:0)

尝试一些代码后。我能够使用下面的代码计算百分位数,我对列进行了排序并使用其索引来计算百分位数。 数据框是' df',具有日期时间格式的列是' date'

date_column = list(df.sort_values('dates')['dates'])
index = range(0,len(date_column)+1)
date_column[np.int((np.percentile(index, 50)))]