我正在使用仅具有日期时间信息的数据集,因为:20110003 - > 2011-03。为了保留2011-03格式,我做了以下工作:
#change 20110003 -> 2011-03
indicator_ccgs_re=indicator_ccgs.loc[:,'Time period Sortable'].astype(str)
old_pattern='00'
new_pattern='-'
new_dates=[]
for i, v in indicator_ccgs_re.items():
new_date = re.sub(old_pattern,new_pattern, v)
new_dates=new_dates+[new_date]
new_index=pd.to_datetime(new_dates,format='%Y%m%')
values_period=indicator_ccgs.loc['2012-01':'2012-06','Value']
type(new_index)
pandas.core.indexes.datetimes.DatetimeIndex
values_period.index
DatetimeIndex(['2012-01-01', '2012-02-01', '2012-03-01', '2012-04-01',
'2012-05-01', '2012-06-01'],
dtype='datetime64[ns]', freq=None)
即使我指定format ='%Y%m%',这一天仍然存在。
当绘制值是按月计算时,但表格输出仍保留索引中的天数。
我尝试重新取样
monthly=values_period.resample('M').sum()
monthly.index
但是日子仍然存在(只有最后一天而不是第一个月):
DatetimeIndex(['2012-01-31', '2012-02-29', '2012-03-31', '2012-04-30',
'2012-05-31', '2012-06-30'],
dtype='datetime64[ns]', freq='M')
尝试:
dt=new_index.strptime('%Y-%m')
我得到了AttributeError:'DatetimeIndex'对象没有属性'strptime'
还有什么其他方法可以从索引中重新开始这一天吗?
答案 0 :(得分:2)
一种直接的方法是重置索引,然后使用lambda strftime,最后再次以新的日期时间格式(即
)设置索引 monthly = monthly.reset_index()
monthly['date'] = monthly['date'].apply(lambda x: x.strftime('%Y-%m'))
monthly.set_index('date', inplace=True)
答案 1 :(得分:0)
这应该有所帮助。
import pandas as pd
df = pd.DataFrame({"a": ["20110003"]})
df["b"] = pd.to_datetime(df["a"], format='%Y00%m').apply(lambda x: x.strftime('%Y-%m'))
print(df["b"])
<强>输出:强>
0 2011-03
Name: b, dtype: object