我有这个简化的数据框:
ID, Date
1 8/24/1995
2 8/1/1899 :00
如何使用pandas的强大功能识别数据框中有额外:00
的任何日期并将其删除。
知道如何解决这个问题吗?
我尝试过这种语法,但没有帮助:
df[df["Date"].str.replace(to_replace="\s:00", value="")]
输出应该是:
ID, Date
1 8/24/1995
2 8/1/1899
答案 0 :(得分:7)
您需要将修剪过的列指定回原始列而不是进行子集化,并且str.replace
方法似乎没有to_replace
和value
参数。它改为pat
和repl
参数:
df["Date"] = df["Date"].str.replace("\s:00", "")
df
# ID Date
#0 1 8/24/1995
#1 2 8/1/1899
答案 1 :(得分:4)
要将其应用于整个数据框,我stack
然后unstack
df.stack().str.replace(r'\s:00', '').unstack()
def dfreplace(df, *args, **kwargs):
s = pd.Series(df.values.flatten())
s = s.str.replace(*args, **kwargs)
return pd.DataFrame(s.values.reshape(df.shape), df.index, df.columns)
df = pd.DataFrame(['8/24/1995', '8/1/1899 :00'], pd.Index([1, 2], name='ID'), ['Date'])
dfreplace(df, '\s:00', '')
rng = range(5)
df2 = pd.concat([pd.concat([df for _ in rng]) for _ in rng], axis=1)
df2
dfreplace(df2, '\s:00', '')