大家好新秀编码员在这里。
我有一个带有时间列的panda df,一个id列和一个包含许多字符串的列,用逗号分隔,偶尔会重复这些,例如这个
id | Date | interest
-------------------------
1 | 2016-01-01 | Economic and Financial Affairs, Competition
2 | 2017-05-17 | Energy, Environment
3 | 2017-04-26 | Economic and Financial Affairs, Taxation
4 | 2017-04-21 | Energy, Taxation
5 | 2017-05-10 | Competition, Environment
我试图找到一种方法来使用.pivot_tables()将日期设置为索引,并将不同的逗号分隔字符串设置为计算其频率的列,以便对它们进行图形化。
期望的输出:
Date | Econ. and Fin. Affairs| Competition | Energy
----- ------------------- ----------- ------
2016-01-01 | 1 | 1 | 0
2017-05-17 | 0 | 0 | 1
2017-04-26 | 1 | 0 | 0
2017-04-21 | 0 | 0 | 1
依此类推,等等。
感谢您的时间
答案 0 :(得分:0)
df.set_index('Date').interest.str.get_dummies(sep=', ')