我现在正致力于文档推荐计划,我有点被困在这里。 对于每个文档,我都根据用户的操作分配了分数。然后,当一个新文档出现时,我需要预测用户将如何喜欢它并根据他们的分数再次重新整理所有文档。我的解决方案是使用阈值将这些分数分为“推荐”和“不推荐”。然后naiveBayes或其他分类模型可以给我一个标签或返回该标签的可能性(我使用NLTK包进行文本分析)。 我是正确的吗?我的问题是,当我获得这种可能性时,如何将其转换为我用于排名的分数?或者我应该在scikit中使用逻辑回归? 谢谢!
答案 0 :(得分:1)
听起来你正试图将排名问题强加到分类问题中。你真正想做的是learn how to rank给出“查询”的文件。
答案 1 :(得分:0)
我建议尝试类似SVM-Rank算法的东西。它将一组“推荐”和“不推荐”的向量作为输入,然后学习如何对它们进行排名,以便推荐的向量首先出现。在dlib中还有一个简单的python工具可以用来做它。请参阅此处以获取示例:http://dlib.net/svm_rank.py.html