数据库df:
month year data
Jan 2017 ggg
Feb 2015 jhjj
Jan 2018 hjhj
Mar 2018 hjhj
and so on
代码:
def data_from_start_month_to_end_month:
for y in range(start_year,end_year):
do something
for m in range(start_month,13):
df = df[(df['month'] == m)&(df['year']== y)]
return df
这将从开始的月份和年份开始代码,但是如果结束月份不是12月,那么它将无法正常工作。
我想要的输出:
start_month = Sep
start_year = 2000
end_month = Feb
end_year = 2019 say
因此循环应该从2000年9月到2019年2月工作,并且仅提取这些行的数据。(但是我需要函数是通用的,而不是硬编码的
任何人都可以帮助
答案 0 :(得分:3)
在将输入转换为日期时间之后,可以使用以下使用series.between
的函数:
def myf(df,start_month,start_year,end_month,end_year):
s= pd.to_datetime(df['month']+df['year'].astype(str),format='%b%Y')
start = pd.to_datetime(start_month+str(start_year),format='%b%Y')
end = pd.to_datetime(end_month+str(end_year),format='%b%Y')
return df[s.between(start,end)]
myf(df,'Sep',2000,'Feb',2017)
month year data
0 Jan 2017 ggg
1 Feb 2015 jhjj
如果月份是数字,请使用format='%m%Y'
代替format='%b%Y'
:
def myf1(df,start_month,start_year,end_month,end_year):
s= pd.to_datetime(df['month'].astype(str)+df['year'].astype(str),format='%m%Y')
start = pd.to_datetime(start_month+str(start_year),format='%b%Y')
end = pd.to_datetime(end_month+str(end_year),format='%b%Y')
return df[s.between(start,end)]
示例df:
month year data
0 1 2017 ggg
1 2 2015 jhjj
2 1 2018 hjhj
3 3 2018 hjhj
myf1(df,'Sep',2000,'Feb',2017)
month year data
0 1 2017 ggg
1 2 2015 jhjj