Question

我是使用pandas的新手，我的一个函数没有按预期运行。我有这个数据框：

     title_year        gross
0          2009  7.60506e+08
1          2007  3.09404e+08
2          2015  2.00074e+08
3          2012  4.48131e+08
5          2012  7.30587e+07
6          2007   3.3653e+08
7          2010  2.00807e+08
8          2015  4.58992e+08
9          2009  3.01957e+08

功能是：

def analysis_gross_per_year(year1, year2):
    year_df = data[['title_year', 'gross']]
    check = True
    year_df.title_year = year_df.title_year.fillna('Not Given')
    year_df.gross = year_df.gross.fillna('Not Given')
    year_df = year_df[year_df.gross != 'Not Given']
    gross_year = year_df[year_df.title_year.str.contains(year1, na=True)]
    number = int(year1)
    while check :
        if str(number) == year2:
            check = False
        else:
            number = number + 1
            df1 = year_df[year_df.title_year.str.contains(str(number), na=False)]
            gross_year = pd.concat([gross_year, df1])
            print (df1)

我给功能2参数第1年和第2年，它应该根据所提供年份的总收入显示平均值，最小值，最大值的折线图。

例如，2013年和2015年。它应显示2013年，2014年，2015年的折线图。但是，当我运行str.contains（year1，na = True）时，它返回一个空数据帧。你能告诉我为什么吗？

Answer 1

如果您的title_year列被强制转换为int，您可以执行以下操作。

import matplotlib.pyplot as plt
%matplotlib inline

def range_plot(year1, year2, agg):
    for a in agg: # iterate through aggregate methods
        _ = df[df['title_year'].between(year1, year2)] # subset DataFrame to contain only the year ranges specified
        _ = _.groupby('title_year').agg(a) # groupby title_year, compute summary statistic
        plt.plot(_.index.values, _['gross'], label=a) # plot

    plt.legend() # display legend
    plt.xlabel('Year')
    plt.ylabel('Gross')
    plt.title("{} - {}".format(year1, year2))

year1和year2是整数，agg是你想要绘制的那些聚合函数的列表。

range_plot(2009, 2015, ['mean', 'sum', 'min', 'max'])

Answer 2

我也对给定的代码片段感到有点困惑，但是如果你只想在数据帧中选择某些年份（作为str值），你可以创建一个年份列表，然后相应地过滤数据帧。

years_to_select = ['2012', '2013', '2014']
filtered_df = original_df[original_df['year'].isin(years_to_select)]

dataframe + pandas +选择特定的行

2 个答案: