我从一个有三列的数据库中查询Pandas
dataframe
。开始日期,结束日期和人员。数据可能没有多大意义,但只是一个简化的例子。
startdate enddate person
0 2016-01-01 2016-01-02 A
1 2016-01-03 2016-01-03 A
2 2016-01-01 2016-01-01 B
3 2016-01-02 2016-01-02 B
在给定的日期范围内,我想了解每个人dataframe
中的条目所涵盖的日期。我认为要创建numpy
array
,其长度等于该范围内的天数。如果该特定日落在该范围内,则该数组中该索引的值设置为1,否则为0.然后我可以使用groupby
和lambda
函数展平。
因此,鉴于上述数据框以及2016-01-01
到2016-01-03
的日期范围,最终结果将为:
date_binary
person
A [1, 1, 1]
B [1, 1, 0]
我已经能够计算出一些代码(groupby
部分),但我不确定如何从日期范围转到数组。所以在下面的完整示例中,我只是硬编码了转换后的数据帧。我想,我本可以在问题的部分问一个更简单的问题,但我知道Pandas
通常有一种非常紧凑的方式来处理事情,所以我甚至发布了工作部分。
import pandas as pd
from datetime import datetime
import numpy as np
# initial dataset
df = pd.DataFrame(data=[['2016-01-01', '2016-01-02', 'A'],
['2016-01-03', '2016-01-03', 'A'],
['2016-01-01', '2016-01-01', 'B'],
['2016-01-02', '2016-01-02', 'B']],
columns=['startdate', 'enddate', 'person'])
# convert columns to dates
df['startdate']= pd.to_datetime(df['startdate'], format='%Y-%m-%d')
df['enddate']= pd.to_datetime(df['enddate'], format='%Y-%m-%d')
# define period for which the matrix should be created
start_date = datetime(month=01, day=1, year=2016)
end_date = datetime(month=1, day=10, year=2016)
######################
# Unsure how to do this
#####################
# what the dataframe should look like
df = pd.DataFrame(data=[[[1, 1, 0], 'A'],
[[0, 0, 1], 'A'],
[[1, 0, 0], 'B'],
[[0, 1, 0], 'B']],
columns=['date_binary', 'person'])
# flatten by person
df = df.groupby('person').aggregate(lambda x: tuple(x))
# take the max value
df.date_binary = df.date_binary.apply(lambda x: np.array([max(i) for i in zip(*x)]))
print df
答案 0 :(得分:1)
我认为apply
可以通过reindex
date_range
自定义功能,返回new_index
和indexer
。最后需要将indexer
值-1
替换为0
,将另一个值替换为1
numpy.where
:
# define period for which the matrix should be created
start_date = datetime(month=1, day=1, year=2016)
end_date = datetime(month=1, day=3, year=2016)
dr = pd.date_range(start_date, end_date)
def f(x):
arr = pd.date_range(x.startdate, x.enddate).reindex(dr)[1]
return pd.Series([np.where(arr == -1, 0, 1)])
df['date_binary'] = df.apply(f, axis=1)
df = df[['date_binary', 'person']]
print (df)
date_binary person
0 [1, 1, 0] A
1 [0, 0, 1] A
2 [1, 0, 0] B
3 [0, 1, 0] B