我有一个表格,其中每一行可以属于多个类别,例如
test = pd.DataFrame({
'name': ['a', 'b'],
'category': [['cat1', 'cat2'],['cat1', 'cat3']]
})
如何将每个类别转换为虚拟变量,使上表成为
test_res = pd.DataFrame({
'name': ['a', 'b'],
'cat1': [1, 1],
'cat2': [1, 0],
'cat3': [0, 1]
})
我尝试pd.get_dummies(test['category'])
,但收到以下错误,
TypeError: unhashable type: 'list'
答案 0 :(得分:9)
您可以使用pandas.get_dummies
,但首先将list
列转换为新的DataFrame
:
print (pd.DataFrame(test.category.values.tolist()))
0 1
0 cat1 cat2
1 cat1 cat3
print (pd.get_dummies(pd.DataFrame(test.category.values.tolist()), prefix_sep='', prefix=''))
cat1 cat2 cat3
0 1 1 0
1 1 0 1
上次按concat
添加列name
:
print (pd.concat([pd.get_dummies(pd.DataFrame(test.category.values.tolist()),
prefix_sep='', prefix='' ),
test[['name']]], axis=1))
cat1 cat2 cat3 name
0 1 1 0 a
1 1 0 1 b
Series.str.get_dummies
的另一个解决方案:
print (test.category.astype(str).str.strip('[]'))
0 'cat1', 'cat2'
1 'cat1', 'cat3'
Name: category, dtype: object
df = test.category.astype(str).str.strip('[]').str.get_dummies(', ')
df.columns = df.columns.str.strip("'")
print (df)
cat1 cat2 cat3
0 1 1 0
1 1 0 1
print (pd.concat([df, test[['name']]], axis=1))
cat1 cat2 cat3 name
0 1 1 0 a
1 1 0 1 b