我有一个非常简单的功能,旨在解析和重新格式化CSV文件:
def parseFile(path, cols=[]):
"""
Parse futures file given in path and re-index, only keep cols provided
in cols.
-------------------
Usage:
data = parseFileCSI('C:\\data\\66\\ad_9609', ['Open', 'Volume'])
"""
filename = path.split('\\')[-1].split('.')[0]
df = pd.read_csv(path, engine='c')
df['ID'] = filename
#align column names with TRTH
df.rename(columns={'Fut Expiration Date':'ExpirationDate'}, inplace=True)
df.set_index(['ID', 'ExpirationDate'], inplace=True)
#keep specified columns
if cols != []:
df = df[cols]
return df
但是,在csv文件中,到期日期被重新格式化为我不想要的格式,如下所示:
我有成千上万个系统阅读的csv,因此无法进行更改并全部更改。我如何解析这些日期字符串,例如'01-Apr-96'
,并将其转换为有效日期?