使用多索引熊猫数据框

时间:2019-08-05 13:34:37

标签: python pandas dataframe multi-index

我正在使用多索引数据框,但是在尝试过滤/更新其值时遇到一些问题。

我需要什么:

  1. 将“名称1”,“名称2”和其他名称更改为大写
  2. 例如获取{Group 1+ A}中所有值为1的名称
  3. 选择后,在上一步中获取名称列表(NAME 1,NAME 2等)

如果我也可以将此MultiIndex数据帧转换为“正常”数据帧,那也可以。

示例代码:

import pandas as pd

sample_file = '.../Sample.xlsx'

excel_file = pd.ExcelFile(sample_file)
df = excel_file.parse(header=[0, 1], index_col=[0], sheet_name=0)

# Upper case columns
c_cols = licensing_df.columns.get_level_values(0).str.upper()
s_cols = licensing_df.columns.get_level_values(1).str.upper()
licensing_df.columns = pd.MultiIndex.from_arrays([c_cols, s_cols])

# TODO: step 1

# Step 2
valid = df[df[('GROUP 1', 'A')] == 1]

# TODO: Step 3

这是我正在使用的示例文件:Sample file

这是数据帧的示例图片:

enter image description here

谢谢!

2 个答案:

答案 0 :(得分:1)

由于您没有提供输入示例,因此我只能假设您要实现的目标。

如果您尝试使用MultIndex选择和修改特定行,则可以使用.loc运算符以及您在MultiIndex中指定的相应元组,例如

df.loc['Name1', ('GROUP 1', 'A')]

让我们模拟一些数据...

index = pd.MultiIndex.from_product([[2013, 2014], [1, 2]],
                                    names=['year', 'visit'])
columns = pd.MultiIndex.from_product([['Bob', 'Guido', 'Sue'], ['HR', 'Temp']],
                                      names=['subject', 'type'])
data=np.array(list(string.ascii_lowercase))[:24].reshape((4, 6))

df = pd.DataFrame(
    columns=columns,
    index=index,
    data=data
)

这是我们的MultiIndex DataFrame:

subject    Bob      Guido      Sue     
type        HR Temp    HR Temp  HR Temp
year visit                             
2013 1       a    b     c    d   e    f
     2       g    h     i    j   k    l
2014 1       m    n     o    p   q    r
     2       s    t     u    v   w    x

让我们选择第一行并将字母更改为大写...

df.loc[(2013, 1)].str.upper()

...以及第一列...

df.loc[('Bob', 'HR')].str.upper()

...最后我们选择一个特定的单元格

df.loc[(2014, 1), ('Guido', 'HR')].upper()

返回

'O'

我希望您能了解如何使用.loc运算符。...

答案 1 :(得分:1)

使用您的Excel文件:

df = pd.read_excel('Downloads/Sample.xlsx', header=[0,1], index_col=0)
df

输出:

Lists  Group 1                                         ... Group 2                                         
Name        AR   AZ   CA   CO  CT   FL  GA   IL IN KY  ...      SC  SD   TN   TX   UT   VA WA   WI  WV   WY
Name 1     NaN  1.0  1.0  1.0 NaN  1.0 NaN  NaN  1  1  ...       1 NaN  1.0  1.0  1.0  1.0  1  1.0 NaN  1.0
Name 2     NaN  NaN  NaN  NaN NaN  1.0 NaN  1.0  1  1  ...       1 NaN  1.0  NaN  NaN  1.0  1  NaN NaN  NaN
Name 3     NaN  NaN  NaN  NaN NaN  NaN NaN  1.0  1  1  ...       1 NaN  NaN  NaN  NaN  NaN  1  NaN NaN  NaN

[3 rows x 72 columns]

要做#1

df.index = df.index.str.upper()
df

输出:

Lists  Group 1                                         ... Group 2                                         
Name        AR   AZ   CA   CO  CT   FL  GA   IL IN KY  ...      SC  SD   TN   TX   UT   VA WA   WI  WV   WY
NAME 1     NaN  1.0  1.0  1.0 NaN  1.0 NaN  NaN  1  1  ...       1 NaN  1.0  1.0  1.0  1.0  1  1.0 NaN  1.0
NAME 2     NaN  NaN  NaN  NaN NaN  1.0 NaN  1.0  1  1  ...       1 NaN  1.0  NaN  NaN  1.0  1  NaN NaN  NaN
NAME 3     NaN  NaN  NaN  NaN NaN  NaN NaN  1.0  1  1  ...       1 NaN  NaN  NaN  NaN  NaN  1  NaN NaN  NaN

[3 rows x 72 columns]

要做#2

df[df.loc[:, ('Group 1', 'AZ')] == 1].index.to_list()

输出:

['NAME 1']

要做#3

df[df.loc[:, ('Group 1', 'IL')] == 1].index.to_list()

输出:

['NAME 2', 'NAME 3']