如何计算每个月的填充量?
data = [
{"event_date": "2018-08-10", "tags": ["tv", "radio"]},
{"event_date": "2018-08-11", "tags": ["tv", "radio"]},
{"event_date": "2018-09-10", "tags": ["tv"]},
{"event_date": "2018-11-10", "tags": ["tv", "wifi"]}
]
df = pd.DataFrame(data)
df.groupby([(df['event_date']).dt.month, df['tags']]).count()
我期望什么:
month tv radio wifi
8 2 2 0
9 1 0 0
10 0 0 0
11 1 0 1
答案 0 :(得分:5)
这是unnest,get_dummies
和reindex
混合问题
df.event_date=pd.to_datetime(df.event_date).dt.month
l=list(range(df.event_date.min(),df.event_date.max()+1))
df.set_index('event_date').tags.apply(pd.Series).stack().\
str.get_dummies().sum(level=0).\
reindex(l,fill_value=0)
Out[834]:
radio tv wifi
event_date
8 2 2 0
9 0 1 0
10 0 0 0
11 0 1 1
答案 1 :(得分:3)
与@Wen类似的方法,但是创建一个新的DataFrame来避免apply
:
s = (pd.DataFrame(df.tags.values.tolist(),
index=df.event_date.dt.month).stack().reset_index(1, drop=True))
现在使用pd.get_dummies
:
(pd.get_dummies(s).sum(level=0)
.reindex(np.arange(s.index.min(),s.index.max()+1), fill_value=0))
radio tv wifi
event_date
8 2 2 0
9 0 1 0
10 0 0 0
11 0 1 1