我一直在使用标记API标记我的项目,以便计算项目 - 项目“相似度”得分,因此:项目1标记为{UK,MALE,50},项目2标记为{FRANCE ,男,22},那种事。这一切都很好。
我想做的是表示项目项“关系”,所以如果我的应用程序说1是2的父项(并且只是为了让事情变得更复杂,这是多层次的),我我希望能告诉Myrrix把这两件物品拉近一点。
我的第一个解决方案是为每个项目添加一个'PARENT_ [name]'标签,并为每个父项添加一个'PARENT_ [parentname]'标签,当我们上层时,权重较低。这确实成功地将父母和孩子拉近了。
不幸的是,建议的整体质量似乎有点下降,结果似乎越来越多变,例如再次运行导入,结果似乎完全随机。这是可以在feature / lambda级别修复的吗?
我还不是很清楚“功能”代表什么,但我怀疑通过大量增加可能的标签数量,我需要以非常不同的方式配置模型......
答案 0 :(得分:1)
这是思考它的正确方法。它有点过载API,但仍然有原则。
它可能会或可能不会实际帮助结果。这取决于喜欢A的用户是否也喜欢B,因为他们有一个共同的产品系列。也许是音乐;你买的东西不太可能像烤面包机一样。
可变性来自随机起点。每次都会有不同的型号。如果从头开始时差异很大,那么你很可能会过度拟合。可能是您的#功能太高或lambda对于数据集而言太低。
您还应该运行一个评分来查看评分是否合适。如果它的得分很差,是的,这是一个远远超出其最佳值的参数。
这个想法是你不需要每次都从头开始构建一个新模型。