如何有效过滤熊猫数据框并返回熊猫系列?

时间:2018-09-24 11:30:56

标签: python pandas

这个问题看起来很简单,而且可以说是愚蠢的。但是考虑到我的情况,为了使跨多个数据帧的大量计算保持高效,我似乎必须完全做到这一点。

场景:

我有一堆pandas数据帧,其中列名是由名称部分和时间部分(例如'AA_2018''BB_2017')构成的。而且我正在对来自不同数据帧的不同列进行计算,因此我必须过滤出时间段。作为mcve,我们只想从包含'AA'的列中减去包含'BB'的列,并忽略此数据框中的所有其他列:

import pandas as pd
import numpy as np

dates = pd.date_range('20180101',periods=3)
df = pd.DataFrame(np.random.randn(3,3),index=dates,columns=['AA_2018', 'AB_2018', 'BB_2017'])

enter image description here

如果我知道列的确切名称,则可以使用以下方法轻松完成:

diff_series = df['AA_2018'] - df['BB_2017']

这将返回一个熊猫系列,因为如果我使用双括号[],则使用单括号[[]],而不是datframe。

我的挑战

diff_series的类型为pandas.core.series.Series。但是由于需要做一些过滤,所以我使用df.filter()返回一个数据帧,该数据帧只有一列,并且不是一系列:

# in:
colAA = df.filter(like = 'AA')

# out:
# AA_2018
# 2018-01-01  0.801295
# 2018-01-02  0.860808
# 2018-01-03 -0.728886

# in:
# type(colAA)

# out:
# pandas.core.frame.DataFrame

由于colAA的类型为pandas.core.frame.DataFrame,因此以下代码也会返回一个数据帧:

# in:
colAA = df.filter(like = 'AA')
colBB = df.filter(like = 'BB')
df_filtered = colBB - colAA

# out:
            AA_2018  BB_2017
2018-01-01      NaN      NaN
2018-01-02      NaN      NaN
2018-01-03      NaN      NaN    

那不是我所追求的。这是:

# in: 
diff_series = df['AA_2018'] - df['BB_2017']

# out:
2018-01-01    0.828895
2018-01-02   -1.153436
2018-01-03   -1.159985

我为什么坚持这样做呢?

因为我想最后使用一个.to_frame()的数据框,并根据我使用的过滤器指定一个名称。

我大概低效的方法是:

# in:

colAA_values = [item for sublist in colAA.values for item in sublist]
# (because colAA.values returns a list of lists)

colBB_values = [item for sublist in colBB.values for item in sublist]

serAA = pd.Series(colAA_values, colAA.index)
serBB = pd.Series(colBB_values, colBB.index)

df_diff = (serBB - serAA).to_frame(name = 'someFilter')

# out:

              someFilter
2018-01-01   -0.828895
2018-01-02    1.153436
2018-01-03    1.159985

我尝试过的/希望做的:

# in:
(df.filter(like = 'BB') - df.filter(like = 'AA')).to_frame(name = 'somefilter')

# out:
# AttributeError: 'DataFrame' object has no attribute 'to_frame'

# (Of course because df.filter() returns a one-column dataframe)

我还希望可以将df.filter()设置为返回熊猫系列,但不能。

我想我本来可以问以下问题:How to convert pandas dataframe column to a pandas series?但这似乎也没有高效的内置oneliner。大多数搜索结果会以相反的方式处理。我已经纠缠了很长时间了,可能有一个显而易见的解决方案即将来临,但是我希望你们中的一些人对如何有效地做到这一点有个建议。

用于轻松复制和粘贴的所有代码元素:

import pandas as pd
import numpy as np

dates = pd.date_range('20180101',periods=3)
df = pd.DataFrame(np.random.randn(3,3),index=dates,columns=['AA_2018', 'AB_2018', 'BB_2017'])

#diff_series = df[['AA_2018']] - df[['BB_2017']]
#type(diff_series)

colAA = df.filter(like = 'AA')
colBB = df.filter(like = 'BB')
df_filtered = colBB - colAA

#type(df_filtered)
#type(colAA)
#colAA.values

#colAA.values returns a list of lists that has to be flattened for use in pd.Series
colAA_values = [item for sublist in colAA.values for item in sublist]
colBB_values = [item for sublist in colBB.values for item in sublist]

serAA = pd.Series(colAA_values, colAA.index)
serBB = pd.Series(colBB_values, colBB.index)

df_diff = (serBB - serAA).to_frame(name = 'someFilter')

# Attempts:
# (df.filter(like = 'BB') - df.filter(like = 'AA')).to_frame(name = 'somefilter')

1 个答案:

答案 0 :(得分:2)

您需要to_frame-DataFrame.squeeze的反面-将一列DataFrame转换为Series

colAA = df.filter(like = 'AA')
colBB = df.filter(like = 'BB')
df_filtered = colBB.squeeze() - colAA.squeeze()
print (df_filtered)
2018-01-01   -0.479247
2018-01-02   -3.801711
2018-01-03    1.567574
Freq: D, dtype: float64