利用Pandas中的多索引

Question

我刚刚提出了一个类似的问题here并得到了答案但得到了认可，即通过向DataFrame添加新列，所提出的解决方案失败，因为问题略有不同。

我想离开这里：

import pandas as pd

df = pd.DataFrame({'ID': [1, 2],
                   'Value_2013': [100, 200],
                   'Value_2014': [245, 300],
                   'Value_2016': [200, float('NaN')]})

print(df)

    ID  Value_2013  Value_2014  Value_2016
0   1         100         245       200.0
1   2         200         300         NaN

为：

df_new = pd.DataFrame({'ID': [1, 1, 1, 2, 2],
                       'Year': [2013, 2014, 2016, 2013, 2014],
                       'Value': [100, 245, 200, 200, 300]})

print(df_new)

    ID  Value  Year
0   1    100  2013
1   1    245  2014
2   1    200  2016
3   2    200  2013
4   2    300  2014

我是如何面对这一挑战的？

Answer 1

您需要先添加set_index：

df = df.set_index('ID')
df.columns = df.columns.str.split('_', expand=True)
df = df.stack().rename_axis(['ID','Year']).reset_index()
df.Value = df.Value.astype(int)
#if order of columns is important
df = df.reindex_axis(['ID','Value','Year'], axis=1)
print (df)
   ID  Value  Year
0   1    100  2013
1   1    245  2014
2   1    200  2016
3   2    200  2013
4   2    300  2014

Answer 2

pandas.melt()方法让你到了一半。之后，这只是一些小小的清理工作。

df = pd.melt(df, id_vars='ID', var_name='Year', value_name='Value')
df['Year'] = df['Year'].map(lambda x: x.split('_')[1])
df = df.dropna().astype(int).sort_values(['ID', 'Year']).reset_index(drop=True)
df = df.reindex_axis(['ID', 'Value', 'Year'], axis=1)

print(df)
   ID  Value  Year
0   1    100  2013
1   1    245  2014
2   1    200  2016
3   2    200  2013
4   2    300  2014

Answer 3

利用Pandas中的多索引

import numpy as np
import pandas as pd
from collections import OrderedDict

df = pd.DataFrame({'ID': [1, 2],
                   'Value_2013': [100, 200],
                   'Value_2014': [245, 300],
                   'Value_2016': [200, float('NaN')]})


# Set ID column as Index
df = df.set_index('ID')

# unstack all columns, swap the levels in the row index 
# and convert series to df
df = df.unstack().swaplevel().to_frame().reset_index()
# Rename columns as desired
df.columns = ['ID', 'Year', 'Value']

# Transform the year values from Value_2013 --> 2013 and so on
df['Year'] = df['Year'].apply(lambda x : x.split('_')[1]).astype(np.int)

# Sort by ID
df = df.sort_values(by='ID').reset_index(drop=True).dropna()

print(df)
   ID  Year  Value
0   1  2013  100.0
1   1  2014  245.0
2   1  2016  200.0
3   2  2013  200.0
4   2  2014  300.0

Answer 4

另一种选择是pd.wide_to_long（）。不可否认，它并没有给你完全相同的输出，但你可以根据需要进行清理。

ubuntu 16

Answer 5

另一个方面（两步）：

In [31]: x = df.set_index('ID').stack().astype(int).reset_index(name='Value')

In [32]: x
Out[32]:
   ID     level_1  Value
0   1  Value_2013    100
1   1  Value_2014    245
2   1  Value_2016    200
3   2  Value_2013    200
4   2  Value_2014    300

In [33]: x = x.assign(Year=x.pop('level_1').str.extract(r'(\d{4})', expand=False))

In [34]: x
Out[34]:
   ID  Value  Year
0   1    100  2013
1   1    245  2014
2   1    200  2016
3   2    200  2013
4   2    300  2014

python中从宽到长的数据操作示例

5 个答案:

利用Pandas中的多索引