应用错误收集

时间：2015-02-06 09:06:53

标签： c# machine-learning classification document-classification mallet

我使用Mallet实现了一个文档分类工具，它将文档的每个页面分类为特定类别。我也尝试过Weka，但在这方面，Mallet比Weka更聪明。我的方法如下：

这部分已经实施，成功率很高。

对于我没有经过培训且与已知类别不同的文本文档应作为NO Match返回，Mallet正在尝试从Mallet不知道的文档的训练集中找到匹配。

例如，我在文档中有4页。第1页属于A类，第3页属于B类。第2页和第4页不属于任何类。如何将第2页和第4页标记为“非匹配”＃39;通过马利特？

请帮助我实现这一目标。如果我做错了什么或任何其他能给我所需输出的工具，请告诉我。

答案 0 :(得分：2)

两个快速的想法：

您可以为所需的置信度值设置一些阈值。例如，槌子说第1页属于A级，有90％的置信度，接受它。如果说它属于C类，有60％的置信度，那就是最好的价值，可能会拒绝这个建议。您可以通过函数-getClassificationScores（documentation: http://mallet.cs.umass.edu/api/cc/mallet/classify/MaxEnt.html#getClassificationScores(cc.mallet.types.Instance，double []）获得分类分数
你可以在python中学习scikit。我听说如果它不知道您的网页属于哪个类，它会告诉NA。