应用错误收集

我在这里相当新，我提前感谢所有花时间阅读这个问题的人。

我们正在使用tf-idf构建推荐系统，以生成文档的规范化向量。根据用户与文档的交互（比如，不喜欢，花时间等等），我们希望生成遵循与文档本身相同结构的用户配置文件。

虽然有大量关于推荐系统和基于内容的过滤产品的文献，但＆＃39;产品＆＃39;一方面，用户偏好本身的结构很少。我并没有完全问一个解决方案＆＃39;而是请指出我们正确的方向（或简单地说，一个方向）。我们可能会自己解决问题，但如果已经有了相当发达的解决方案，则无需重新发明轮子。

非常感谢大家！丹尼尔

你的问题有点难以理解，但根据我的理解，我想分享一个简单的想法，可以引导你走上正确的道路：

首先，您可以将tfidf向量视为高维向量空间的一部分。假设文档在群集中进行了分组，您可以尝试将用户投影到这些群集中并选择最近群集的元素。但要做到这一点，我建议不要使用多个标签，而只是“用户喜欢”。

用户向量可以是他喜欢的文档的tfidf向量的平均值。然而，这只有在用户具有同质偏好（优选地仅来自一个群集）时才能很好地工作，因为如果他喜欢来自远处群集的大量文档，他将发现自己在那些可能不一定反映他的兴趣的群集之间。但如果偏好的结构发挥作用，这可能会很好。
您继续确定与用户向量最接近的集群，然后从该集群中选择其他文档作为建议。

对于距离，您可以从余弦距离开始，您可以使用简单的K-Nearest Neighbor算法找到群集（请参阅scikit learn）。

tf-idf到用户首选项矢量

1 个答案: