我是Python的初学者。为了执行数据挖掘,我想转换原始数据集:
PurchaseLine01 PurchaseLine02 PurchaseLine03 PurchaseLine04
milk egg sausage
butter water
egg sugar cake water
进入此数据集:
milk egg sausage butter sugar cake water
1 TRUE TRUE TRUE FALSE FALSE FALSE FALSE
2 FALSE FALSE FALSE TRUE FALSE FALSE TRUE
3 FALSE TRUE FALSE FALSE TRUE TRUE TRUE
Python中有没有简单的方法来完成这项任务?
答案 0 :(得分:0)
请使用pandas中的get_dummies()
函数获取预期的输出。
答案 1 :(得分:0)
假设您的数据位于名为df
的数据框中。
import pandas as pd
import numpy as np
cols = np.unique(df.stack().values).tolist()
new_df = pd.DataFrame(columns=cols, index=range(len(df)))
def get_series(string):
return (df == string).T.any()
for col in cols:
new_df[col] = get_series(col)
new_df