聚合百分比需要算法帮助

时间:2014-08-21 13:41:09

标签: php algorithm math percentage

我试图弄清楚如何构建一个特定的算法(最终在PHP中实现,但这不太重要),但是我很难将我的头脑包裹在最好的做数学的方法。我没有定义复杂的行业特定流程,而是在这里使用一个疯狂的比喻(数学是重要的)。想象一下,您正在尝试根据商店内销售的商品确定特定品牌汽车停放在商店停车场的几率。首先,您需要对100,000个停车场进行实物调查,记录外面发现的每辆独特汽车,商店内销售的每件独特商品,以及商品与商店相关的固定百分比(例如:木材与89%相关)家得宝,但铅笔只与沃尔玛有23%的相关性。

我正在尝试解决的问题有两部分。首先,我试图找出将这些数据汇总到特定项目的最佳方法,同时尊重每个相关百分比和确认观察的数量(因此一个定位不等于100%的机会,类似于{{ 3}})。换句话说,如果一家全新的,前所未见的商店出售沃特福德眼镜和羊绒衫,我们可以预测,梅赛德斯在停车场的可能性为89%。

所以回顾一下: 在商店中已经看到每个项目特定次数。对于每个时间,存在不同的产品/商店相关百分比以及停车场中所有汽车制造商的列表。如何以数学方式计算特定品牌在全新商店停车场的百分比,仅基于其中的物品?

现在,通过添加另一层抽象,第二部分变得更加复杂。如果一个人访问50家商店,并且我们汇总了所有商店中的所有商品,我们可以预测他们开的汽车类型(例如:许多露营和远足商店,因此他们有67%的机会驾驶吉普车) 。然后,如果他们访问新商店并接触到我们没有数据的全新商品,我需要将67%吉普车应用到新商品上(仍然尊重该商品与商店的相关性)。然后使用该项目的不太确定的吉普统计数据来影响我们对包含该新项目(从未直接测量过)的停车场的预测。也许这需要我们添加某种置信区间?或者,如果我们分析的数百万项中的每一项最终平均达到50%,我们如何才能代表这种不确定性呢?

我非常感谢你的帮助!

1 个答案:

答案 0 :(得分:0)

我认为,你需要构建互相关矩阵, 行是商品,列是汽车类型。 每个单元格包含归一化系数,如何一些 良好(即钻石戒指)与汽车类型(地理或梅赛德斯)有关。

详情见这里:

http://en.wikipedia.org/wiki/Cross-correlation