Question

嘿，我有一个问题要根据名称对行进行分组。

下面是我的数据集：

Name      University            Subject              

John      Harvard               English, French
John      MIT                   Economics
Alan      BU                    Data Science

我想要以下输出：

Name   Harvard   MIT   BU    English   French   Economics   Data Science
  
John      1       1     0       1         1        1            0
Alan      0       0     1       0         0        0            1

请让我知道如何在Python中执行此操作。我对此很陌生，我知道我们可以使用一种热编码来创建二进制变量，但是我不确定如何根据相同的名称合并行并分隔主题。

如何合并基于相同名称的行？
您如何针对由“，”分隔的主题创建单独的列
如何为所有这些创建二进制变量？

Answer 1

对于初学者，您的问题涉及很多。使用pandas，您可以执行以下操作。

从文件加载数据时，无需执行此步骤。
用文本输入设置数据框。

import pandas as pd
import io

t =  '''
Name      University            Subject              

John      Harvard               English, French
John      MIT                   Economics
Alan      BU                    Data Science'''

df = pd.read_csv(io.StringIO(t), sep='\s\s+', engine='python')
df

出局：

   Name University          Subject
0  John    Harvard  English, French
1  John        MIT        Economics
2  Alan         BU     Data Science

在Subject split列中，一行中有多个值进入列表

df['Subject'] = df.Subject.str.split(', ')

Explode列表和melt到长数据格式。记住列的顺序

ser = df.explode('Subject').melt('Name').drop('variable', 1)
order = ser.value.unique()

使用get_dummies和groupby('Name')

获取二进制变量

(pd.get_dummies(
    ser, columns=['value'], prefix='', prefix_sep='')
    .groupby('Name', sort=False).max()
)[order]

出局：

      Harvard  MIT  BU  English  French  Economics  Data Science
Name                                                            
John        1    1   0        1       1          1             0
Alan        0    0   1        0       0          0             1

如何对相似的行进行分组？

1 个答案: