Question

我有一个非常简单的功能，旨在解析和重新格式化CSV文件：

def parseFile(path, cols=[]):
    """
    Parse futures file given in path and re-index, only keep cols provided
    in cols.
    -------------------
    Usage:
        data = parseFileCSI('C:\\data\\66\\ad_9609', ['Open', 'Volume'])
    """

    filename = path.split('\\')[-1].split('.')[0]
    df = pd.read_csv(path, engine='c')
    df['ID'] = filename

    #align column names with TRTH
    df.rename(columns={'Fut Expiration Date':'ExpirationDate'}, inplace=True)

    df.set_index(['ID', 'ExpirationDate'], inplace=True)

    #keep specified columns
    if cols != []:
        df = df[cols]

    return df

但是，在csv文件中，到期日期被重新格式化为我不想要的格式，如下所示：

我有成千上万个系统阅读的csv，因此无法进行更改并全部更改。我如何解析这些日期字符串，例如'01-Apr-96'，并将其转换为有效日期？

熊猫-读取CSV时忽略格式化的数据类型

0 个答案: