使用pivot_table()从重复的字符串中创建列

时间:2017-07-27 02:02:26

标签: python regex pandas

大家好新秀编码员在这里。

我有一个带有时间列的panda df,一个id列和一个包含许多字符串的列,用逗号分隔,偶尔会重复这些,例如这个

id | Date        | interest
-------------------------
 1 | 2016-01-01  | Economic and Financial Affairs, Competition
 2 | 2017-05-17  | Energy, Environment
 3 | 2017-04-26  | Economic and Financial Affairs, Taxation
 4 | 2017-04-21  | Energy, Taxation
 5 | 2017-05-10  | Competition, Environment

我试图找到一种方法来使用.pivot_tables()将日期设置为索引,并将不同的逗号分隔字符串设置为计算其频率的列,以便对它们进行图形化。

期望的输出:

Date | Econ. and Fin. Affairs| Competition | Energy
-----   -------------------    -----------  ------
2016-01-01 | 1               | 1           | 0
2017-05-17 | 0               | 0           | 1
2017-04-26 | 1               | 0           | 0
2017-04-21 | 0               | 0           | 1

依此类推,等等。

感谢您的时间

1 个答案:

答案 0 :(得分:0)

df.set_index('Date').interest.str.get_dummies(sep=', ')