Question

假设您有关于数千家在线商店及其库存部分的数据，其中一些物品随机丢失。表的结构很简单：

shop_id    |    item_id
12345      |    2222222
12345      |    4444444
12345      |    9999999
45678      |    2222222
45678      |    9999999
98765      |    9999999
...

对于每个商店，您可以看到他们提供的商品，对于每个商品，您可以看到在其库存中有商品的商店。但是，即使某些商店确实出售商品，但可能尚未将某些商品添加到数据库中。现在您想找出：

给出一个项目，即使没有数据，哪些商店最有可能在其库存中包含该项目？

我的计划是建立一个content-based recommender system，根据相似度为所选商品推荐一家商店。这就像为选定的用户推荐一部电影，您可以在链接的示例中看到该电影。现在，我对此有两个担忧：

矩阵（SHOPS x ITEMS）将非常稀疏，因为大约3000万种不同商品，大多数商店只有几百或他们库存中的一千。位置敏感的哈希值可能会减少推理时间，但我不确定是否可以解决问题。
我担心精度，因为矩阵值会是布尔值（商店是否有商品？），而最推荐者系统从这些值中获取更重要的信息，例如电影评分或句子结构。

我觉得有一个更好的方法可以解决我尚未发现的问题。你有什么想法吗？

在稀疏布尔矩阵中找到相似性

0 个答案: