我需要计算数据框中的名称频率,其中groupby为年。
Name Date
Joe,Mary 2000
Dan,Ben 2001
Mal,Tom 2000
我尝试了来自sklearn的CountVectorizer
,但结果大小太大了。还尝试df.name.str.split(',').apply(pd.Series)
,但它没有产生预期的结果。
最终结果应该是
Name Date
Joe 2000
Mary 2000
Dan 2001
Ben 2001
Mal 2000
Tom 2000
有什么建议吗?