假设您有关于数千家在线商店及其库存部分的数据,其中一些物品随机丢失。表的结构很简单:
shop_id | item_id
12345 | 2222222
12345 | 4444444
12345 | 9999999
45678 | 2222222
45678 | 9999999
98765 | 9999999
...
对于每个商店,您可以看到他们提供的商品,对于每个商品,您可以看到在其库存中有商品的商店。但是,即使某些商店确实出售商品,但可能尚未将某些商品添加到数据库中。现在您想找出:
给出一个项目,即使没有数据,哪些商店最有可能在其库存中包含该项目?
我的计划是建立一个content-based recommender system,根据相似度为所选商品推荐一家商店。这就像为选定的用户推荐一部电影,您可以在链接的示例中看到该电影。 现在,我对此有两个担忧:
矩阵(SHOPS x ITEMS)将非常稀疏,因为 大约3000万种不同商品,大多数商店只有几百或 他们库存中的一千。位置敏感的哈希值可能会减少 推理时间,但我不确定是否可以解决问题。
我担心精度,因为矩阵值会是 布尔值(商店是否有商品?),而最推荐者 系统从这些值中获取更重要的信息,例如 电影评分或句子结构。
我觉得有一个更好的方法可以解决我尚未发现的问题。你有什么想法吗?