使用熊猫(UNPIVOT)将表格更改为高格式

时间:2017-04-14 19:12:25

标签: python pandas dataframe unpivot

我有一张这样的表

   user         company company2 company3 company4
    1           Mac     Lenovo    Hp      null              
    2           Mac       MSI     Sony                          

使用pandas我希望它是

     user    company
     1          Mac
     1          Lenovo
     1          Hp
     2         Mac

等等 在这里我尝试了它,但没有使用pandas pivot。

dataframe = pd.read_csv('data.csv')
dataframe.fillna(value='', inplace=True)
#dataframe.pivot(index='user', columns='company')

上面的代码不起作用并给出错误。

2 个答案:

答案 0 :(得分:8)

您可以使用pd.melt方法:

In [211]: pd.melt(df, id_vars='user', value_vars=df.columns.drop('user').tolist())
Out[211]:
   user  variable   value
0     1   company     Mac
1     2   company     Mac
2     1  company2  Lenovo
3     2  company2     MSI
4     1  company3      Hp
5     2  company3    Sony
6     1  company4    null
7     2  company4     NaN

In [213]: pd.melt(df,
                  id_vars='user', value_vars=df.columns.drop('user').tolist(),
                  value_name='Company') \
            .drop('variable',1)
Out[213]:
   user Company
0     1     Mac
1     2     Mac
2     1  Lenovo
3     2     MSI
4     1      Hp
5     2    Sony
6     1    null
7     2     NaN

更新:删除NaN并按user对结果DF进行排序:

In [218]: pd.melt(df,
     ...:         id_vars='user', value_vars=df.columns.drop('user').tolist(),
     ...:         value_name='Company') \
     ...:   .drop('variable',1) \
     ...:   .dropna() \
     ...:   .sort_values('user')
     ...:
Out[218]:
   user Company
0     1     Mac
2     1  Lenovo
4     1      Hp
6     1    null
1     2     Mac
3     2     MSI
5     2    Sony

PS如果你想摆脱null值 - 使用df.replace('null', np.nan)而不是df

In [219]: pd.melt(df.replace('null', np.nan),
     ...:         id_vars='user', value_vars=df.columns.drop('user').tolist(),
     ...:         value_name='Company') \
     ...:   .drop('variable',1) \
     ...:   .dropna() \
     ...:   .sort_values('user')
     ...:
Out[219]:
   user Company
0     1     Mac
2     1  Lenovo
4     1      Hp
1     2     Mac
3     2     MSI
5     2    Sony

答案 1 :(得分:4)

可以使用stack(不知道它是否比melt效率更高:

dataframe.set_index("user").stack().reset_index(-1, drop=True)

user
1       Mac
1    Lenovo
1        Hp
2       MSI
2       Mac
2      Sony

Stack实际上将列推送到索引的一部分(并创建MultiIndex) - 因此,对于每个列 - 行组合,您将在新的DataFrame中获得一行。也就是DataFrame

   C1 C2
0  A  B
1  a  b
stack()成为Series

后的

0  C1 A
0  C2 B
1  C1 a
1  C2 b