数据转换/准备

时间:2018-05-04 17:15:28

标签: python data-transform

我是Python的初学者。为了执行数据挖掘,我想转换原始数据集:

PurchaseLine01  PurchaseLine02  PurchaseLine03  PurchaseLine04
milk              egg               sausage  
butter            water      
egg               sugar              cake           water

进入此数据集:

    milk    egg    sausage  butter  sugar   cake    water
1   TRUE    TRUE    TRUE    FALSE   FALSE   FALSE   FALSE
2   FALSE   FALSE   FALSE   TRUE    FALSE   FALSE   TRUE
3   FALSE   TRUE    FALSE   FALSE   TRUE    TRUE    TRUE

Python中有没有简单的方法来完成这项任务?

2 个答案:

答案 0 :(得分:0)

请使用pandas中的get_dummies()函数获取预期的输出。

答案 1 :(得分:0)

假设您的数据位于名为df的数据框中。

import pandas as pd
import numpy as np

cols = np.unique(df.stack().values).tolist() 
new_df = pd.DataFrame(columns=cols, index=range(len(df))) 

def get_series(string): 
    return (df == string).T.any() 

for col in cols: 
    new_df[col] = get_series(col) 
new_df