Question

我遇到的情况是，我的数据框中的几个日期的月份和日期都搞砸了。例如，这里是输入：

df['work_date'].head(15)

    0     2018-01-01
    1     2018-02-01
    2     2018-03-01
    3     2018-04-01
    4     2018-05-01
    5     2018-06-01
    6     2018-07-01
    7     2018-08-01
    8     2018-09-01
    9     2018-10-01
    10    2018-11-01
    11    2018-12-01
    12    2018-01-13
    13    2018-01-14
    14    2018-01-15

日期存储为 string。如您所见，日期的格式为 yyyy-dd-mm 至 1 月 12 日，然后变为 yyyy-mm-dd。数据框由 3 年的数据组成，这种模式在所有年份的所有月份重复。

我的预期输出是将日期标准化为 dddd-mm-yy 格式，如下所示。

0     2018-01-01
1     2018-01-02
2     2018-01-03
3     2018-01-04
4     2018-01-05
5     2018-01-06
6     2018-01-07
7     2018-01-08
8     2018-01-09
9     2018-01-10
10    2018-01-11
11    2018-01-12
12    2018-01-13
13    2018-01-14
14    2018-01-15

下面是我写的代码，它完成了工作。基本上，我拆分日期字符串并进行一些字符串操作。然而，正如你所看到的，它不太漂亮。我正在检查除了执行 df.apply 和 loops 之外是否还有其他一些优雅的解决方案。

def func(x):
    d = x.split('-')
    print(d)
    if (int(d[1]) <= 12) & (int(d[2]) <= 12) :
        d = [d[0],d[2],d[1]]
        x = '-'.join(d)
        return x
    else:
        return x
df['work_date'] = df['work_date'].apply(lambda x:func(x))

Answer 1

您可以根据列是有序的并且只有一个日期并且连续包含一年中的所有天这一事实来更新该列：

df['Date'] = pd.date_range(df['work_date'].min(), '2018-01-12', freq='1D')
# you can specify df['work_date'].min() OR df['work_date'].max) OR A STRING. It really depends on what format your minimum and your maximum is
df
Out[1]: 
     work_date       date
0   2018-01-01 2018-01-01
1   2018-02-01 2018-01-02
2   2018-03-01 2018-01-03
3   2018-04-01 2018-01-04
4   2018-05-01 2018-01-05
5   2018-06-01 2018-01-06
6   2018-07-01 2018-01-07
7   2018-08-01 2018-01-08
8   2018-09-01 2018-01-09
9   2018-10-01 2018-01-10
10  2018-11-01 2018-01-11
11  2018-12-01 2018-01-12
12  2018-01-13 2018-01-13
13  2018-01-14 2018-01-14
14  2018-01-15 2018-01-15

为了使这更加动态，您还可以执行如下所示的一些 try / except：

minn = df['work_date'].min()
maxx = df['work_date'].max()
try:
    df['Date'] = pd.date_range(minn, maxx, freq='1D')
except ValueError:
    s = maxx.split('-')
    df['Date'] = pd.date_range(minn, f'{s[0]}-{s[2]}-{s[1]}', freq='1D')
except ValueError:
    s = minn.split('-')
    df['Date'] = pd.date_range(f'{s[0]}-{s[2]}-{s[1]}', maxx, freq='1D')
df

熊猫数据框中的月份和日期搞砸了

1 个答案: