匹配概率和计数

时间:2016-01-10 18:07:32

标签: machine-learning classification

我有一套移动设备数据。当用户下载特定应用时,会收到展示(数据点)。收到展示后,它会包含设备的ID,地理位置和时间戳。通过分析每个用户的使用模式以及一天中的时间,星期几,某个位置的印象数等之间的交互...我想确定最有可能是移动设备用户的家庭地址的位置。例如,

Id 1可以使用以下使用模式

10月11日星期日上午8:15,位置(A1),纬度为40.748817,经度为-73.985428,并收到了印象。

10月11日星期日上午8:15,位置(A1),纬度为40.748817,经度为-73.985428,并收到了印象。

9月27日星期日上午8:15,位置(A1),纬度为40.748817,经度为-73.985428,并收到了印象。

9月20日星期日上午8:15,地点(A1),纬度为40.748817,经度为-73.985428,并收到了印象。

因此,我们总共有4次展示(访问次数)发生在(星期日,8,15)的唯一(星期几,小时,分钟)元组中,即总共4次(访问次数)到位置A1带有这个独特的元组。

我们也有

10月4日星期日上午8:15,位置(A3),纬度为40.748809,经度为-73.985371,并收到了印象。

10月18日星期日上午8:15,位置(A3),纬度为40.748809,经度为-73.985371,并收到了印象。

9月20日星期日上午8:15,地点(A3),纬度为40.748809,经度为-73.985371,并收到了印象。

因此,我们总共有3次展示(访问次数)发生在(星期日,8,15)的独特(星期几,小时,分钟)元组中,即总共3次(访问次数)到位置A3带有这个独特的元组。

因此,我们总共有7次访问发生在唯一元组(星期日,8,15),其中4次发生在A1位置,3次发生在位置A3,因此我们在元组上有位置A1的总访问百分比(星期日,8,15)等于57%,元组位置A2(星期日,8,15)的总访问百分比等于43%。

Id 1

           Location  day    hour  min Total Visits_Percentage   
             A1      Sunday   8    15    4        .57                            
             A1      Sunday   8    30    4        .57
             A2      Monday  15     0    2        .66
             A2      Tuesday 15     0    2        .33
             A2      Tuesday 11    15    1        1.0
             A3      Saturday 1    30    2        1.0
             A3      Saturday 1    45    1        1.0
             A3      Saturday 2     0    1        1.0
             A3      Sunday   8    15    3         .43
             A3      Sunday   8    30    3         .43

我有训练数据,在任何给定的(星期几,小时,分钟)元组中具有特定的家庭概率。

例如,对于(星期日,8,15)元组,对于此特定(星期几,小时元组)的位置访问(印象)的概率为41.2%意味着该位置是设备用户的实际主页。类似地,对于(星期日,8,30)元组,概率为41.9%,(星期一,150)概率为32.3%,...

我想建立一个模型,要么返回每个id的位置为home的概率,即

   A1= .52
   A2= .19
   A3= .49

或明确将每个位置分类为“家”或“不在家”。我欢迎有关可能适合此问题的现有模型的任何想法或构建自定义算法的策略。

1 个答案:

答案 0 :(得分:0)

我认为您可以将问题表示为样本/用户所在的分类模型:

loc1-mon loc1-tue loc1-wed ... loc2-mon ... loc2-sun ... loci-dayi

并且每个功能的值是他们在每个位置的访问百分比。 然后,对于某些用户,您需要知道他们的家庭位置。您可以使用这些黄金标签作为训练样本并学习分类器,该分类器给出每个位置的访问百分比,查找用户是否位于loc1,loc2,...或locn中。地点是标签。

这似乎是一个答案吗?我通常在Python中使用scikit-learn来训练这样的模型,因为它很容易使用。