我有一张这样的表
user company company2 company3 company4
1 Mac Lenovo Hp null
2 Mac MSI Sony
使用pandas我希望它是
user company
1 Mac
1 Lenovo
1 Hp
2 Mac
等等 在这里我尝试了它,但没有使用pandas pivot。
dataframe = pd.read_csv('data.csv')
dataframe.fillna(value='', inplace=True)
#dataframe.pivot(index='user', columns='company')
上面的代码不起作用并给出错误。
答案 0 :(得分:8)
您可以使用pd.melt方法:
In [211]: pd.melt(df, id_vars='user', value_vars=df.columns.drop('user').tolist())
Out[211]:
user variable value
0 1 company Mac
1 2 company Mac
2 1 company2 Lenovo
3 2 company2 MSI
4 1 company3 Hp
5 2 company3 Sony
6 1 company4 null
7 2 company4 NaN
或
In [213]: pd.melt(df,
id_vars='user', value_vars=df.columns.drop('user').tolist(),
value_name='Company') \
.drop('variable',1)
Out[213]:
user Company
0 1 Mac
1 2 Mac
2 1 Lenovo
3 2 MSI
4 1 Hp
5 2 Sony
6 1 null
7 2 NaN
更新:删除NaN并按user
对结果DF进行排序:
In [218]: pd.melt(df,
...: id_vars='user', value_vars=df.columns.drop('user').tolist(),
...: value_name='Company') \
...: .drop('variable',1) \
...: .dropna() \
...: .sort_values('user')
...:
Out[218]:
user Company
0 1 Mac
2 1 Lenovo
4 1 Hp
6 1 null
1 2 Mac
3 2 MSI
5 2 Sony
PS如果你想摆脱null
值 - 使用df.replace('null', np.nan)
而不是df
:
In [219]: pd.melt(df.replace('null', np.nan),
...: id_vars='user', value_vars=df.columns.drop('user').tolist(),
...: value_name='Company') \
...: .drop('variable',1) \
...: .dropna() \
...: .sort_values('user')
...:
Out[219]:
user Company
0 1 Mac
2 1 Lenovo
4 1 Hp
1 2 Mac
3 2 MSI
5 2 Sony
答案 1 :(得分:4)
可以使用stack
(不知道它是否比melt
效率更高:
dataframe.set_index("user").stack().reset_index(-1, drop=True)
user
1 Mac
1 Lenovo
1 Hp
2 MSI
2 Mac
2 Sony
Stack实际上将列推送到索引的一部分(并创建MultiIndex
) - 因此,对于每个列 - 行组合,您将在新的DataFrame
中获得一行。也就是DataFrame
C1 C2
0 A B
1 a b
stack()
成为Series
后的
0 C1 A
0 C2 B
1 C1 a
1 C2 b