我目前有一个“日期”列作为熊猫数据框的索引,其格式为:
January
February
....
Year2
January
February
...
Year3
(来自pdf表提取器。)是否容易地将年份和月份分开,每个月都有合适的年份或合适的日期时间列作为我的索引?
现在我正在考虑应用一个函数,该函数可以选择一个值是否为数字,如果是,则将其克隆到另一列并删除,但是应该有一种更简单的方法。
所有都是对象,但是年份是数字形式,而月份是长字符串形式。
非常感谢您。
答案 0 :(得分:1)
将ffill
与to_numeric
一起使用
df['Year']=pd.to_numeric(df.MixCol,errors='coerce').ffill().astype(int)
df=df.loc[pd.to_numeric(df.MixCol,errors='coerce').isnull()]
df
Out[86]:
MixCol Year
1 January 2017
2 February 2017
4 January 2018
5 February 2018
数据输入
MixCol
2017
January
February
2018
January
February
2019