我在这里相当新,我提前感谢所有花时间阅读这个问题的人。
我们正在使用tf-idf构建推荐系统,以生成文档的规范化向量。根据用户与文档的交互(比如,不喜欢,花时间等等),我们希望生成遵循与文档本身相同结构的用户配置文件。
虽然有大量关于推荐系统和基于内容的过滤产品的文献,但'产品'一方面,用户偏好本身的结构很少。我并没有完全问一个解决方案'而是请指出我们正确的方向(或简单地说,一个方向)。我们可能会自己解决问题,但如果已经有了相当发达的解决方案,则无需重新发明轮子。
非常感谢大家! 丹尼尔
答案 0 :(得分:0)
你的问题有点难以理解,但根据我的理解,我想分享一个简单的想法,可以引导你走上正确的道路:
首先,您可以将tfidf向量视为高维向量空间的一部分。假设文档在群集中进行了分组,您可以尝试将用户投影到这些群集中并选择最近群集的元素。但要做到这一点,我建议不要使用多个标签,而只是“用户喜欢”。
用户向量可以是他喜欢的文档的tfidf向量的平均值。然而,这只有在用户具有同质偏好(优选地仅来自一个群集)时才能很好地工作,因为如果他喜欢来自远处群集的大量文档,他将发现自己在那些可能不一定反映他的兴趣的群集之间。但如果偏好的结构发挥作用,这可能会很好。
您继续确定与用户向量最接近的集群,然后从该集群中选择其他文档作为建议。
对于距离,您可以从余弦距离开始,您可以使用简单的K-Nearest Neighbor算法找到群集(请参阅scikit learn)。