如何在数据帧熊猫中找到极少数项之间的相关性

时间:2018-05-31 05:21:29

标签: pandas dataframe machine-learning

您好我是数据帧新手,请帮我解决此问题。

我的dataframe1看起来像这样(它有itemID和Item名称),我只有7个项目

  itemID   ItemName
    1        abc
    2        fds
    3        btbtr
    4        gerhet
    5        dfhkwjfn
    6        adaf
    7        jdkj

我的Dataframe2如下所示:

有userID和itemID,这里我有20k用户,每个用户前面有一个itemid(可以是多个)

  userId     itemID
   23213       2
   31267       3
   52144       1
   52144       2
   87467       6

我怎样才能找到项目之间的项目项相关性? 我希望item1与item3和item6高度相关

我尝试过corrwith(),但我得到的只是NaN。

请帮我找到这个,提前致谢

1 个答案:

答案 0 :(得分:0)

这是我能想到的方法。可能很粗糙,但我们走了。

  1. 删除所有前面只有1个项目的用户
  2. 现在您只有多个项目的用户。
  3. 记下项目共现的次数。即制作排序数据框 item-item:count
  4.   

    1-2:50

         

    3-5:35

    等等。现在,在获得所有一对一关联后,将计数值归一化到0-1之间,并且您具有所有项目之间的相关性。

    希望它有所帮助!