dataframe + pandas +选择特定的行

时间:2017-12-06 10:12:48

标签: python pandas dataframe

我是使用pandas的新手,我的一个函数没有按预期运行。我有这个数据框:

     title_year        gross
0          2009  7.60506e+08
1          2007  3.09404e+08
2          2015  2.00074e+08
3          2012  4.48131e+08
5          2012  7.30587e+07
6          2007   3.3653e+08
7          2010  2.00807e+08
8          2015  4.58992e+08
9          2009  3.01957e+08

功能是:

def analysis_gross_per_year(year1, year2):
    year_df = data[['title_year', 'gross']]
    check = True
    year_df.title_year = year_df.title_year.fillna('Not Given')
    year_df.gross = year_df.gross.fillna('Not Given')
    year_df = year_df[year_df.gross != 'Not Given']
    gross_year = year_df[year_df.title_year.str.contains(year1, na=True)]
    number = int(year1)
    while check :
        if str(number) == year2:
            check = False
        else:
            number = number + 1
            df1 = year_df[year_df.title_year.str.contains(str(number), na=False)]
            gross_year = pd.concat([gross_year, df1])
            print (df1)

我给功能2参数第1年和第2年,它应该根据所提供年份的总收入显示平均值,最小值,最大值的折线图。

例如,2013年和2015年。它应显示2013年,2014年,2015年的折线图。但是,当我运行str.contains(year1,na = True)时,它返回一个空数据帧。你能告诉我为什么吗?

2 个答案:

答案 0 :(得分:1)

如果您的title_year列被强制转换为int,您可以执行以下操作。

import matplotlib.pyplot as plt
%matplotlib inline

def range_plot(year1, year2, agg):
    for a in agg: # iterate through aggregate methods
        _ = df[df['title_year'].between(year1, year2)] # subset DataFrame to contain only the year ranges specified
        _ = _.groupby('title_year').agg(a) # groupby title_year, compute summary statistic
        plt.plot(_.index.values, _['gross'], label=a) # plot

    plt.legend() # display legend
    plt.xlabel('Year')
    plt.ylabel('Gross')
    plt.title("{} - {}".format(year1, year2))

year1和year2是整数,agg是你想要绘制的那些聚合函数的列表。

range_plot(2009, 2015, ['mean', 'sum', 'min', 'max'])

enter image description here

答案 1 :(得分:0)

我也对给定的代码片段感到有点困惑,但是如果你只想在数据帧中选择某些年份(作为str值),你可以创建一个年份列表,然后相应地过滤数据帧。

years_to_select = ['2012', '2013', '2014']
filtered_df = original_df[original_df['year'].isin(years_to_select)]