我正在尝试为在线市场网站实施新的供应商排名系统。我想做的是将供应商从最高到最低的综合评分中分类。目前,我正在考虑使用线性模型计算分数,类似
score = w1 * f1 + w2 * f2 + w3 * f3....
其中f1,f2,....是不同的特征(例如,平均评分,订单取消率,响应率等),w1,w2 ......是这些特征的相应权重。
我希望为每件商品从0到100的供应商评分,并根据此分数对商品进行排序。
我遇到的问题是找到一种为每个功能分配最佳权重的方法。有没有办法分配权重,以便优化诸如让我们说,用户进行购买的概率,或者像质量更无形的东西? 经过一些谷歌搜索,我发现一些文件显示使用PCA创建一些复合索引。但由于我对PCA不太熟悉,我不完全确定它是否适合这种情况。
如果有人能够指引我走上正确的道路,我将非常感激。如果我以完全错误的方式处理这个问题,如果有人能指出这一点,我将不胜感激。
答案 0 :(得分:0)
这似乎是你的cookie切割监督学习问题。根据您是否有足够的标记数据,您可以应用易于培训的内容,如线性回归(http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html)或更复杂的内容,如增强(http://xgboost.readthedocs.io/en/latest/python/python_intro.html)。数据的标签可能是用户购买东西的频率,这使其成为回归问题。