我有一个包含有关市场信息的数据集。数据集包含以下内容:市场数量,购买数量,全天平均购买量,全天和所有市场平均购买量,以及该市场与所有市场相比便宜的平均百分比。
数据看起来像这样:
market volume numPurchases transDate avgDailyPurchases AvgDailyPurchasesAll
JFK 500 32 20190102 50 75
JFK 500 60 20190103 50 75
ATL 450 40 20190102 40 75
avgPercentCheaperThanAll
.22
.22
.75
我想做的就是对市场进行排名。定义了一个顶级市场,其中avgDailyPurhcases
相对于其交易量较高,而avgPercentCheaperThanAll
也较高。因此,在上述数据中,即使肯尼迪国际公司的avgDailyPurchases
数量更多,ATL也会比肯尼迪国际更好的市场。ATL比所有市场都便宜。
我尝试使用IMDB公式对电影进行排名,但是例如,我使用了自己的变量表示形式:
weighted rating (WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C
v = volume of market
m = minimum volume required to be in the list
R = avgDailyPurchases
C = AvgDailyPurchasesAll
这给了我几乎不错的列表,但是却缺少一个主要因素:avgPercentCheaperThanAll。如何将其添加到方程中以获得更好的结果?
答案 0 :(得分:0)
在设计评级方程或任何方程之前,应考虑的几点。
标识输入变量:可以理解。
avgDailyPurhcases,AvgDailyPurchasesAll,avgPercentCheaperThanAll, 音量,最低音量阈值
标准化输入变量:从以上数据可以推断,交易量以100计,平均每日购买量为10,而便宜的变量以小数计。如果您尝试直接在单个方程式中使用这些变量而不进行归一化,那么您的评分将受到偏见并主要受 volume 因素的影响。因此,您应该考虑对其进行标准化,请使用此链接来了解更多Normalize Data。
评分= [变量1的权重] * [归一化变量1的值] + ....依此类推。
您将能够从上述步骤中得出所需的等式,并且该等式对您而言更加清晰,并且更适合您的情况。否则,您可以在网络上复制任何评级公式并根据需要进行修改,但是每个公式都会给出不同的结果,并且当有更多输入变量到达时,您将无法控制它们。
希望这会有所帮助。