我正在使用Python,使用历史销售数据来预测产品的未来销售数量。我还试图预测各种产品组的数量。
例如,我的列如下所示:
Date Sales_count Department Item Color
8/1/2018, 50, Homegoods, Hats, Red_hat
如果我想使用历史数据(时间)建立一个模型来预测每个Department / Item / Color组合的sales_count,那么最佳的模型是什么?
如果我针对销售情况按时进行线性回归,该如何计算各种类别?我可以将它们分组吗?
我将改为使用多元线性回归,将各个类别视为独立变量吗?
答案 0 :(得分:1)
我在python中进行预测的最佳方式是在statsmodel库中使用SARIMAX(带有外生变量的季节性自动回归综合移动平均线)模型。这是SARIMAX using python中非常好的教程的链接 另外,如果您能够根据“部门/项目”颜色组合对数据框进行分组,则可以将它们放入循环中并应用相同的模型。 可能是您可以为每个唯一的组合创建一个键,并且可以为每个键条件预测销售量。 例如,
df=pd.read_csv('your_file.csv')
df['key']=df['Department']+'_'+df['Item']+'_'+df['Color']
for key in df['key'].unique():
temp=df.loc[df['key']==key]#filtering only the specific group
temp=temp.groupby('Date')['Sales_count'].sum().reset_index()
#aggregating the sum of sales in that date. Ignore if not required.
#write the forecasting code here from the tutorial