我正在查询Stackoverflow以获取一些数据(https://data.stackexchange.com/stackoverflow/query/new),并且我有一个带有标签作为列的数据框。这些标签原本是
<html><css>
我设法以
的形式获得它们html,css
如何分隔标签,以便它们可以成为类别变量,并且可以使用类似get_dummies的方法来转换它们? 我所看到的所有内容都是指实际列表,例如[html,css],而不仅仅是逗号分隔的单词。
答案 0 :(得分:1)
为此,我们可以使用df['Tags'].str.get_dummies(',')
,它基本上执行split
并将每个元素转换为自己的一键编码列。