我正在使用多索引数据框,但是在尝试过滤/更新其值时遇到一些问题。
我需要什么:
如果我也可以将此MultiIndex数据帧转换为“正常”数据帧,那也可以。
示例代码:
import pandas as pd
sample_file = '.../Sample.xlsx'
excel_file = pd.ExcelFile(sample_file)
df = excel_file.parse(header=[0, 1], index_col=[0], sheet_name=0)
# Upper case columns
c_cols = licensing_df.columns.get_level_values(0).str.upper()
s_cols = licensing_df.columns.get_level_values(1).str.upper()
licensing_df.columns = pd.MultiIndex.from_arrays([c_cols, s_cols])
# TODO: step 1
# Step 2
valid = df[df[('GROUP 1', 'A')] == 1]
# TODO: Step 3
这是我正在使用的示例文件:Sample file
这是数据帧的示例图片:
谢谢!
答案 0 :(得分:1)
由于您没有提供输入示例,因此我只能假设您要实现的目标。
如果您尝试使用MultIndex选择和修改特定行,则可以使用.loc运算符以及您在MultiIndex中指定的相应元组,例如
df.loc['Name1', ('GROUP 1', 'A')]
让我们模拟一些数据...
index = pd.MultiIndex.from_product([[2013, 2014], [1, 2]],
names=['year', 'visit'])
columns = pd.MultiIndex.from_product([['Bob', 'Guido', 'Sue'], ['HR', 'Temp']],
names=['subject', 'type'])
data=np.array(list(string.ascii_lowercase))[:24].reshape((4, 6))
df = pd.DataFrame(
columns=columns,
index=index,
data=data
)
这是我们的MultiIndex DataFrame:
subject Bob Guido Sue
type HR Temp HR Temp HR Temp
year visit
2013 1 a b c d e f
2 g h i j k l
2014 1 m n o p q r
2 s t u v w x
让我们选择第一行并将字母更改为大写...
df.loc[(2013, 1)].str.upper()
...以及第一列...
df.loc[('Bob', 'HR')].str.upper()
...最后我们选择一个特定的单元格
df.loc[(2014, 1), ('Guido', 'HR')].upper()
返回
'O'
我希望您能了解如何使用.loc运算符。...
答案 1 :(得分:1)
使用您的Excel文件:
df = pd.read_excel('Downloads/Sample.xlsx', header=[0,1], index_col=0)
df
输出:
Lists Group 1 ... Group 2
Name AR AZ CA CO CT FL GA IL IN KY ... SC SD TN TX UT VA WA WI WV WY
Name 1 NaN 1.0 1.0 1.0 NaN 1.0 NaN NaN 1 1 ... 1 NaN 1.0 1.0 1.0 1.0 1 1.0 NaN 1.0
Name 2 NaN NaN NaN NaN NaN 1.0 NaN 1.0 1 1 ... 1 NaN 1.0 NaN NaN 1.0 1 NaN NaN NaN
Name 3 NaN NaN NaN NaN NaN NaN NaN 1.0 1 1 ... 1 NaN NaN NaN NaN NaN 1 NaN NaN NaN
[3 rows x 72 columns]
df.index = df.index.str.upper()
df
输出:
Lists Group 1 ... Group 2
Name AR AZ CA CO CT FL GA IL IN KY ... SC SD TN TX UT VA WA WI WV WY
NAME 1 NaN 1.0 1.0 1.0 NaN 1.0 NaN NaN 1 1 ... 1 NaN 1.0 1.0 1.0 1.0 1 1.0 NaN 1.0
NAME 2 NaN NaN NaN NaN NaN 1.0 NaN 1.0 1 1 ... 1 NaN 1.0 NaN NaN 1.0 1 NaN NaN NaN
NAME 3 NaN NaN NaN NaN NaN NaN NaN 1.0 1 1 ... 1 NaN NaN NaN NaN NaN 1 NaN NaN NaN
[3 rows x 72 columns]
df[df.loc[:, ('Group 1', 'AZ')] == 1].index.to_list()
输出:
['NAME 1']
df[df.loc[:, ('Group 1', 'IL')] == 1].index.to_list()
输出:
['NAME 2', 'NAME 3']