我对python / pandas很新,如果这是一个简单的问题,那就很抱歉。 我目前有2个数据框,一个有日期范围,另一个有产品SKU。我想创建一个数据框,重复每个日期的所有SKU。
我目前正在使用iterrows()执行此操作,但对于大型数据集来说效率非常低。
提前致谢。
示例:
dates_df:
Date
0 2016-01-01
1 2016-01-02
2 2016-01-03
sku_df:
SKU
0 001
1 002
2 003
result_df:
Date SKU
2016-01-01 001
2016-01-01 002
2016-01-01 003
2016-01-02 001
2016-01-02 002
2016-01-02 003
2016-01-03 001
2016-01-03 002
2016-01-03 003
答案 0 :(得分:3)
您可以使用itertools.product:
In [30]: from itertools import product
In [31]: pd.DataFrame(list(product(dates.Date, sku.SKU)), columns=['Date','SKU'])
Out[31]:
Date SKU
0 2016-01-01 001
1 2016-01-01 002
2 2016-01-01 003
3 2016-01-02 001
4 2016-01-02 002
5 2016-01-02 003
6 2016-01-03 001
7 2016-01-03 002
8 2016-01-03 003
或使用熊猫的笛卡儿产品:
In [136]: pd.merge(dates.assign(key='x'), sku.assign(key='x'), on='key').drop('key', 1)
Out[136]:
Date SKU
0 2016-01-01 001
1 2016-01-01 002
2 2016-01-01 003
3 2016-01-02 001
4 2016-01-02 002
5 2016-01-02 003
6 2016-01-03 001
7 2016-01-03 002
8 2016-01-03 003
来源DF:
In [32]: dates
Out[32]:
Date
0 2016-01-01
1 2016-01-02
2 2016-01-03
In [33]: sku
Out[33]:
SKU
0 001
1 002
2 003
两个DF每个1K行的时序,因此得到的DF将有1M行:
In [153]: dates = pd.DataFrame({'Date':pd.date_range('2000-01-01', periods=1000)})
...: sku = pd.DataFrame({'SKU':np.arange(1, 1001).astype(str)})
...: sku.SKU = sku.SKU.str.zfill(3)
...:
In [154]: dates.shape
Out[154]: (1000, 1)
In [155]: sku.shape
Out[155]: (1000, 1)
In [156]: %timeit pd.DataFrame(list(product(dates.Date, sku.SKU)), columns=['Date','SKU'])
1 loop, best of 3: 667 ms per loop
In [157]: %timeit pd.merge(dates.assign(key='x'), sku.assign(key='x'), on='key').drop('key', 1)
1 loop, best of 3: 222 ms per loop
In [158]: len(pd.DataFrame(list(product(dates.Date, sku.SKU)), columns=['Date','SKU']))
Out[158]: 1000000
In [159]: len(pd.merge(dates.assign(key='x'), sku.assign(key='x'), on='key').drop('key', 1))
Out[159]: 1000000