我使用Mallet实现了一个文档分类工具,它将文档的每个页面分类为特定类别。我也尝试过Weka,但在这方面,Mallet比Weka更聪明。我的方法如下:
这部分已经实施,成功率很高。
对于我没有经过培训且与已知类别不同的文本文档应作为NO Match返回,Mallet正在尝试从Mallet不知道的文档的训练集中找到匹配。
例如,我在文档中有4页。第1页属于A类,第3页属于B类。第2页和第4页不属于任何类。如何将第2页和第4页标记为“非匹配”#39;通过马利特?
请帮助我实现这一目标。如果我做错了什么或任何其他能给我所需输出的工具,请告诉我。
答案 0 :(得分:2)
两个快速的想法:
您可以为所需的置信度值设置一些阈值。例如,槌子说第1页属于A级,有90%的置信度,接受它。如果说它属于C类,有60%的置信度,那就是最好的价值,可能会拒绝这个建议。您可以通过函数-getClassificationScores(documentation: http://mallet.cs.umass.edu/api/cc/mallet/classify/MaxEnt.html#getClassificationScores(cc.mallet.types.Instance,double [])获得分类分数
你可以在python中学习scikit。我听说如果它不知道您的网页属于哪个类,它会告诉NA
。