Myrrix标记API表示/加权父/子项关系

时间:2013-09-23 16:28:10

标签: mahout recommendation-engine myrrix mahout-recommender

我一直在使用标记API标记我的项目,以便计算项目 - 项目“相似度”得分,因此:项目1标记为{UK,MALE,50},项目2标记为{FRANCE ,男,22},那种事。这一切都很好。

我想做的是表示项目项“关系”,所以如果我的应用程序说1是2的父项(并且只是为了让事情变得更复杂,这是多层次的),我我希望能告诉Myrrix把这两件物品拉近一点。

我的第一个解决方案是为每个项目添加一个'PARENT_ [name]'标签,并为每个父项添加一个'PARENT_ [parentname]'标签,当我们上层时,权重较低。这确实成功地将父母和孩子拉近了。

不幸的是,建议的整体质量似乎有点下降,结果似乎越来越多变,例如再次运行导入,结果似乎完全随机。这是可以在feature / lambda级别修复的吗?

我还不是很清楚“功能”代表什么,但我怀疑通过大量增加可能的标签数量,我需要以非常不同的方式配置模型......

1 个答案:

答案 0 :(得分:1)

这是思考它的正确方法。它有点过载API,但仍然有原则。

它可能会或可能不会实际帮助结果。这取决于喜欢A的用户是否也喜欢B,因为他们有一个共同的产品系列。也许是音乐;你买的东西不太可能像烤面包机一样。

可变性来自随机起点。每次都会有不同的型号。如果从头开始时差异很大,那么你很可能会过度拟合。可能是您的#功能太高或lambda对于数据集而言太低。

您还应该运行一个评分来查看评分是否合适。如果它的得分很差,是的,这是一个远远超出其最佳值的参数。

这个想法是你不需要每次都从头开始构建一个新模型。