Question

我正在尝试为在线市场网站实施新的供应商排名系统。我想做的是将供应商从最高到最低的综合评分中分类。目前，我正在考虑使用线性模型计算分数，类似

score = w1 * f1 + w2 * f2 + w3 * f3....

其中f1，f2，....是不同的特征（例如，平均评分，订单取消率，响应率等），w1，w2 ......是这些特征的相应权重。

我希望为每件商品从0到100的供应商评分，并根据此分数对商品进行排序。

我遇到的问题是找到一种为每个功能分配最佳权重的方法。有没有办法分配权重，以便优化诸如让我们说，用户进行购买的概率，或者像质量更无形的东西？经过一些谷歌搜索，我发现一些文件显示使用PCA创建一些复合索引。但由于我对PCA不太熟悉，我不完全确定它是否适合这种情况。

如果有人能够指引我走上正确的道路，我将非常感激。如果我以完全错误的方式处理这个问题，如果有人能指出这一点，我将不胜感激。

Answer 1

这似乎是你的cookie切割监督学习问题。根据您是否有足够的标记数据，您可以应用易于培训的内容，如线性回归（http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html）或更复杂的内容，如增强（http://xgboost.readthedocs.io/en/latest/python/python_intro.html）。数据的标签可能是用户购买东西的频率，这使其成为回归问题。