我正在重构和查询pandas DataFrames
中的数据时使用很多方法链接。有时,正在创建in索引(行)和列的附加和不必要的级别。如果是这样,例如在索引(行轴)上,使用DataFrame.reset_index()
:
df.query('some query')
.apply(cool_func)
.reset_index('unwanted_index_level',drop=True) # <====
.apply(another_cool_func)
reset_index
功能允许您继续使用链式方法并继续使用DataFrame
。
尽管如此,我从未找到过与column_axis相同的解决方案。有没有呢?
答案 0 :(得分:3)
您可以stack
列(将其移至索引)并使用drop = True调用reset_index
,也可以使用reset_columns()
编写reset_index()
方法一个作为起点(见frame.py#L2940)
df.query('some query')
.apply(cool_func)
.stack(level='unwanted_col_level_name')
.reset_index('unwanted_col_level_name',drop=True)
.apply(another_cool_func)
替代方案:猴子补丁解决方案
def drop_column_levels(self, level=None, inplace=False):
"""
For DataFrame with multi-level columns, drops one or more levels.
For a standard index, or if dropping all levels of the MultiIndex, will revert
back to using a classic RangeIndexer for column names.
Parameters
----------
level : int, str, tuple, or list, default None
Only remove the given levels from the index. Removes all levels by
default
inplace : boolean, default False
Modify the DataFrame in place (do not create a new object)
Returns
-------
resetted : DataFrame
"""
if inplace:
new_obj = self
else:
new_obj = self.copy()
new_columns = pd.core.common._default_index(len(new_obj.columns))
if isinstance(self.index, pd.MultiIndex):
if level is not None:
if not isinstance(level, (tuple, list)):
level = [level]
level = [self.index._get_level_number(lev) for lev in level]
if len(level) < len(self.columns.levels):
new_columns = self.columns.droplevel(level)
new_obj.columns = new_columns
if not inplace:
return new_obj
# Monkey patch the DataFrame class
pd.DataFrame.drop_column_levels = drop_column_levels
答案 1 :(得分:1)
我自己找到了另一个解决方案,即使用.T
的{{1}}字段,相当于DataFrame
。
DataFrame.transpose()
答案 2 :(得分:0)
允许继续点链的一个选项是为pd.DataFrame
类定义一个降低列索引级别的新方法。这称为猴子修补,它会降低代码的可移植性。
def reset_column_index(self, inplace=False):
if inplace:
self.columns = ['_'.join(tup) for tup in self.columns]
else:
c = self.copy()
c.columns = ['_'.join(tup) for tup in c.columns]
return c
pd.DataFrame.reset_column_index = reset_column_index
df.query('some query')
.apply(cool_func)
.reset_column_index()
.apply(another_cool_func)
使用此方法会将多索引列展平为单个索引,并将名称与下划线合并。
# foo bar
# A B A B
# 0 17 2 0 3
# 1 4 12 40 11
变为
# foo_A foo_B bar_A bar_B
# 0 17 2 0 3
# 1 4 12 40 11