如何通过遍历多个值来动态创建新的数据框?

时间:2018-07-24 20:17:47

标签: python pandas numpy datetime for-loop

python的新手。

我有此数据:

sample = pd.DataFrame({'CustomerID': ['1', '2', '3', '4', '5', '6'],
       'Date': np.random.choice(pd.Series(pd.date_range('2018-01-01', 
        freq='D', periods=180)), 6),
       'Period': np.random.uniform(50, 200, 6),
      }, columns=['CustomerID', 'Date', 'Period'])
sample

我想将'Period'列添加到'Date'列,将每个新日期记录在带有CustomerIDNew Date列的单独数据框中。但是,我想记录每个新日期(在以前的新日期上迭代)直到新日期>2020。

我做了一个功能:

def proj(ids=None):
end = pd.to_datetime('2020-01-01') 
for x in ids:
    date = projection.loc[projection['CustomerID'] == x, 'Date'] 
    period = projection.loc[projection['CustomerID'] == x, 'Period'])
    time_left = end - date  
    ratio = float(round(time_left.dt.days / period)) # how many times the period fits in time_left
    itera = np.arange(1, ratio, 1) 
    for i in itera:
        deltas = [i * period]
        df = pd.Series(deltas).map(float).map(dt.timedelta) 
        pdates = pd.Series((date + df)) 
        pdates = pdates.map(pd.to_datetime)
        print(dates)

我显然不仅没有弄清楚如何为输出创建新的数据框,而且此功能还仅对我的一个CustomerID有效,而对其他客户无效。

我真的对下一步的工作感到困惑。

感谢您的帮助。

编辑:供参考,我希望输出看起来像

output = pd.DataFrame({'CustomerID': ['1', '1', '1', '1', '2', '2', '2'],
                  'New Date': ['2018-09-28', '2019-01-21', '2019-05-16','2019-09-08',
                              '2018-09-26', '2019-02-27', '2019-07-31']})
output

1 个答案:

答案 0 :(得分:1)

对于sample,如下所示:

  CustomerID       Date  Period
0          1 2018-01-16     152
1          2 2018-06-28     109
2          3 2018-03-07      59
3          4 2018-03-30     172
4          5 2018-01-07      92
5          6 2018-05-22     164

首先,让我们指定将Date转换为datetime对象的结束日期。

from datetime import timedelta
from datetime import datetime
end_date = datetime.strptime('2020-01-01', '%Y-%m-%d')
sample['Date'] = pd.to_datetime(sample['Date'])

现在,让我们为每一行创建一个日期列表。

sample['dates'] = sample.apply(lambda x: pd.date_range(start=x['Date'], end=end_date, freq='D')[::x['Period']], axis=1)

只需将日期变平,并保持CustomerID

output = sample[['CustomerID', 'dates']].set_index('CustomerID')['dates'].apply(pd.Series).stack().reset_index(name='New Date').drop('level_1',1)

输出:

   CustomerID   New Date
0           1 2018-01-16
1           1 2018-06-17
2           1 2018-11-16
3           1 2019-04-17
4           1 2019-09-16
5           2 2018-06-28
6           2 2018-10-15
7           2 2019-02-01
8           2 2019-05-21
9           2 2019-09-07
10          2 2019-12-25
11          3 2018-03-07
12          3 2018-05-05
13          3 2018-07-03
14          3 2018-08-31
15          3 2018-10-29
16          3 2018-12-27
17          3 2019-02-24
18          3 2019-04-24
19          3 2019-06-22
20          3 2019-08-20
21          3 2019-10-18
22          3 2019-12-16
23          4 2018-03-30
24          4 2018-09-18
25          4 2019-03-09
26          4 2019-08-28
27          5 2018-01-07
28          5 2018-04-09
29          5 2018-07-10
30          5 2018-10-10
31          5 2019-01-10
32          5 2019-04-12
33          5 2019-07-13
34          5 2019-10-13
35          6 2018-05-22
36          6 2018-11-02
37          6 2019-04-15
38          6 2019-09-26