我正在使用此多索引数据框编写一个测试用例,但无法拆开堆栈。如下例所示,以下函数完全生成我从excel文件中读取的布局:Sample file
def mocked_df():
people = ['USER 1', 'USER 2', 'USER 3',
'USER 4', 'USER 5', 'USER 6']
flag_and_states = [['A', 'B'], ['AL', 'AR', 'CA', 'CO']]
# Building multi-index frame
index = pd.MultiIndex.from_product([people])
columns = pd.MultiIndex.from_product(flag_and_states, names=['Flag', 'Name'])
data = [[1, 0, 0, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 1, 0, 0],
[0, 0, 0, 0, 0, 1, 0, 0],
[0, 0, 1, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 0, 1, 0],
[0, 0, 0, 1, 0, 0, 0, 0]]
# Return data frame with multi-index
return pd.DataFrame(
columns=columns,
index=index,
data=data
)
此后,我试图拆开数据框:
df = mocked_df()
df = df.unstack().reset_index()
但是我有以下错误:
ValueError:没有足够的值可解包(预期2,得到0)
有什么想法吗?在示例Excel文件上使用相同的unstack调用也可以。
非常感谢您!
答案 0 :(得分:2)
这是索引MultiIndex
的一级问题,因此unstack
失败,出现非常奇怪的错误。
print (df.index.nlevels)
1
#correct 2 level MultiIndex in columns
print (df.columns.nlevels)
2
print (df.index)
MultiIndex([('USER 1',),
('USER 2',),
('USER 3',),
('USER 4',),
('USER 5',),
('USER 6',)],
)
#correct 2 level MultiIndex in columns
print (df.columns)
MultiIndex([('A', 'AL'),
('A', 'AR'),
('A', 'CA'),
('A', 'CO'),
('B', 'AL'),
('B', 'AR'),
('B', 'CA'),
('B', 'CO')],
names=['Flag', 'Name'])
解决方案仅按列表index = people
创建索引,因为索引中没有MultiIndex
:
def mocked_df():
people = ['USER 1', 'USER 2', 'USER 3',
'USER 4', 'USER 5', 'USER 6']
flag_and_states = [['A', 'B'], ['AL', 'AR', 'CA', 'CO']]
# Building multi-index frame
index = people
columns = pd.MultiIndex.from_product(flag_and_states, names=['Flag', 'Name'])
data = [[1, 0, 0, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 1, 0, 0],
[0, 0, 0, 0, 0, 1, 0, 0],
[0, 0, 1, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 0, 0, 1, 0],
[0, 0, 0, 1, 0, 0, 0, 0]]
# Return data frame with multi-index
return pd.DataFrame(
columns=columns,
index=index,
data=data
)
然后unstack
正常工作:
df = mocked_df()
df = df.unstack().reset_index()
print (df.head(10))
Flag Name level_2 0
0 A AL USER 1 1
1 A AL USER 2 0
2 A AL USER 3 0
3 A AL USER 4 0
4 A AL USER 5 0
5 A AL USER 6 0
6 A AR USER 1 0
7 A AR USER 2 0
8 A AR USER 3 0
9 A AR USER 4 0
答案 1 :(得分:0)
您没有提供所需的输出,如果尝试该怎么办:
df = df.stack().reset_index()