应用错误收集

时间：2013-01-26 09:18:54

标签： machine-learning classification

我正在尝试确定大型集合中的项目对之间的相似性。这些项目有几个属性，我能够计算每个属性的离散相似度得分，介于0和1之间。我根据属性使用各种分类器：TF-IDF余弦相似度，朴素贝叶斯分类器等。

在将所有信息编译成所有项目的最终相似度分数时，我陷入困境。我不能只取一个未加权的平均值，因为1）什么是高分取决于分类器和2）一些分类器比其他分类器更重要。另外，一些分类器只应考虑其高分，即高分指向较高的相似度，但较低的分数没有意义。

到目前为止，我已经通过猜测计算了最终得分，但越来越多的分类器使得这个问题变得非常糟糕。有哪些技术可以确定一个最佳公式，这个公式将采用我的各种分数并返回一个？重要的是要注意系统确实接收到人工反馈，这是一些分类器开始工作的方式。

最终，我只对每个项目中最相似的排名感兴趣。绝对分数本身毫无意义，只有它们的顺序很重要。

答案 0 :(得分：4)

有一本关于合奏分类器主题的好书。它在线：Combining Pattern Classifiers

本书中有两章（ch4＆amp; ch5）关于标签输出的融合以及如何获得单一决策值。

本章定义了一组方法，包括：

1-加权多数投票

2-朴素贝叶斯组合

3- ...

我希望这就是你要找的东西。

答案 1 :(得分：3)

获取有关整体分类的书籍。关于如何学习良好的分类器组合已经有很多工作。有很多选择。您当然可以学习权重并进行加权平均。或者您可以使用纠错码。等.pp。

无论如何，请阅读“集合分类”，这是您需要的关键字。