business_id categories
1K4qrnfyzKzGgJPBEcJaNQ ['Tiki Bars', 'Nightlife', 'Mexican', 'Restaurants', 'Bars']
dTWfATVrBfKj7Vdn0qWVWg ['Restaurants', 'Chinese', 'Food Court']
这就是我的数据框架的样子。第二列有一个列表作为每个值。
我目前正在使用此代码,但它不起作用并给我一个错误 下面:
categorical_data = pd.DataFrame()
for i in range(len(data)):
for j in range(len(data.iloc[i][1])):
categorical_data = pd.concat(data.iloc[i][0], data.iloc[i][1][j])
TypeError:第一个参数必须是pandas对象的可迭代,你传递了一个类型为“str”的对象
有没有办法可以将类别列表添加到同一家餐馆?我尝试过使用'get_dummies',但它无法分割列表并对其进行编码。
答案 0 :(得分:1)
我认为join
需要{{3}}:
from sklearn.preprocessing import MultiLabelBinarizer
mlb = MultiLabelBinarizer()
df1 = pd.DataFrame(mlb.fit_transform(df['categories']),columns=mlb.classes_, index=df.index)
df2 = df[['business_id']].join(df1)
print (df2)
business_id Bars Chinese Food Court Mexican Nightlife \
0 1K4qrnfyzKzGgJPBEcJaNQ 1 0 0 1 1
1 dTWfATVrBfKj7Vdn0qWVWg 0 1 1 0 0
Restaurants Tiki Bars
0 1 1
1 1 0
或者从第一列创建索引:
df1 = pd.DataFrame(mlb.fit_transform(df['categories']),
columns=mlb.classes_, index=df['business_id'])
print (df1)
Bars Chinese Food Court Mexican Nightlife \
business_id
1K4qrnfyzKzGgJPBEcJaNQ 1 0 0 1 1
dTWfATVrBfKj7Vdn0qWVWg 0 1 1 0 0
Restaurants Tiki Bars
business_id
1K4qrnfyzKzGgJPBEcJaNQ 1 1
dTWfATVrBfKj7Vdn0qWVWg 1 0