对市场进行排名的算法

时间:2019-05-31 04:02:13

标签: algorithm machine-learning statistics

我有一个包含有关市场信息的数据集。数据集包含以下内容:市场数量,购买数量,全天平均购买量,全天和所有市场平均购买量,以及该市场与所有市场相比便宜的平均百分比。

数据看起来像这样:

market volume  numPurchases   transDate  avgDailyPurchases  AvgDailyPurchasesAll  
JFK    500     32             20190102   50                 75
JFK    500     60             20190103   50                 75
ATL    450     40             20190102   40                 75

avgPercentCheaperThanAll
.22
.22
.75

我想做的就是对市场进行排名。定义了一个顶级市场,其中avgDailyPurhcases相对于其交易量较高,而avgPercentCheaperThanAll也较高。因此,在上述数据中,即使肯尼迪国际公司的avgDailyPurchases数量更多,ATL也会比肯尼迪国际更好的市场。ATL比所有市场都便宜。

我尝试使用IMDB公式对电影进行排名,但是例如,我使用了自己的变量表示形式:

weighted rating (WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C 
v = volume of market
m = minimum volume required to be in the list
R = avgDailyPurchases
C = AvgDailyPurchasesAll

这给了我几乎不错的列表,但是却缺少一个主要因素:avgPercentCheaperThanAll。如何将其添加到方程中以获得更好的结果?

1 个答案:

答案 0 :(得分:0)

在设计评级方程或任何方程之前,应考虑的几点。

  1. 标识输入变量:可以理解。

      

    avgDailyPurhcases,AvgDailyPurchasesAll,avgPercentCheaperThanAll,   音量,最低音量阈值

  2. 标准化输入变量:从以上数据可以推断,交易量以100计,平均每日购买量为10,而便宜的变量以小数计。如果您尝试直接在单个方程式中使用这些变量而不进行归一化,那么您的评分将受到偏见并主要受 volume 因素的影响。因此,您应该考虑对其进行标准化,请使用此链接来了解更多Normalize Data

  3. 分配权重:您希望 avgPercentCheaperThanAll 的优先级高于 avgDailyPurchases 变量,这可以通过为变量分配适当的权重来实现。
  4. 定义关系:您应该考虑定义变量之间的关系,无论它们与您的评分是直接相关还是间接相关。
  5. 推导方程式:最后一步是推导方程式。通过以上步骤,将所有关系组合在一起将非常容易,然后您将得到一个类型方程:
      

    评分= [变量1的权重] * [归一化变量1的值] + ....依此类推。

您将能够从上述步骤中得出所需的等式,并且该等式对您而言更加清晰,并且更适合您的情况。否则,您可以在网络上复制任何评级公式并根据需要进行修改,但是每个公式都会给出不同的结果,并且当有更多输入变量到达时,您将无法控制它们。

希望这会有所帮助。