我正在寻找有关如何为零售商分析数据的方向。 假设这家零售商在 5 年内销售了数百件商品,并且根据时间她将商品移到不同货架(数据集)上。 每个展示位置都有一个唯一的 ID,根据周围的物品和位置,价格可能会有所不同(目标)
EDA 的最佳方法是什么?您会尝试使用哪种模型来确定哪些项目与哪些项目搭配以创造最大的收入? 谢谢大家的建议
附录:我被要求添加一些数据,所以这里是一个例子: 正如您将看到的,商品的价格取决于商品本身,还取决于商店中的分区 - 所以问题是我应该在特定区域中关联哪个商品,以便我最大限度地购买我的客户(假设这里只有一个每个时间段购买的物品)
答案 0 :(得分:1)
我使用普通最小二乘 ols 来概括和预测教育和年龄如何影响收入。你可以为零售做同样的事情。举例说明您对产品的跟踪功能,然后按关键功能分组。您可以看到该功能如何影响产品的价格
df=pd.read_csv("GSS2018.csv")
print("the scatter plot represents the mean age by income")
grouped= df.groupby('AGE')
mean_income_by_age=grouped['REALINC'].mean()
df2=pd.DataFrame()
df2['AGE']=np.linspace(18,85)
df2['AGE2']=df2['AGE']**2
df2['EDUC']=12
df2['EDUC2']=df2['EDUC']**2
df3=pd.DataFrame()
df3['AGE']=np.linspace(18,85)
df3['AGE2']=df3['AGE']**2
df3['EDUC']=16
df3['EDUC2']=df3['EDUC']**2
df4=pd.DataFrame()
df4['AGE']=np.linspace(18,85)
df4['AGE2']=df4['AGE']**2
df4['EDUC']=18
df4['EDUC2']=df4['EDUC']**2
results= smf.ols("REALINC ~ EDUC+EDUC2+AGE+AGE2", data=df).fit()
print("Make predictions using the prediction dataframe")
pred12=results.predict(df2)
pred16=results.predict(df3)
pred18=results.predict(df4)
plt.plot(df2['AGE'],pred12,label='High school')
plt.plot(df2['AGE'],pred16,label='Bachelor')
plt.plot(df2['AGE'],pred18,label='Masters')
plt.plot(mean_income_by_age,'o',alpha=0.5)
plt.xlabel('Age')
plt.ylabel('Income')
plt.legend()
plt.show()