将文档分类中的Mallet应用为二元分类器

时间:2015-02-06 09:06:53

标签: c# machine-learning classification document-classification mallet

我使用Mallet实现了一个文档分类工具,它将文档的每个页面分类为特定类别。我也尝试过Weka,但在这方面,Mallet比Weka更聪明。我的方法如下:

  1. 将文档的页面训练为已知类别
  2. 测试一些示例文档,确定Mallet是否识别某个类别的页面。 Mallet匹配测试集与已知类别。
  3. 如果测试成功且令人满意,则使用分类器和mallet文件在大型文档存储库上运行。
  4. 这部分已经实施,成功率很高。

    对于我没有经过培训且与已知类别不同的​​文本文档应作为NO Match返回,Mallet正在尝试从Mallet不知道的文档的训练集中找到匹配。

    例如,我在文档中有4页。第1页属于A类,第3页属于B类。第2页和第4页不属于任何类。如何将第2页和第4页标记为“非匹配”#39;通过马利特?

    请帮助我实现这一目标。如果我做错了什么或任何其他能给我所需输出的工具,请告诉我。

1 个答案:

答案 0 :(得分:2)

两个快速的想法:

  1. 您可以为所需的置信度值设置一些阈值。例如,槌子说第1页属于A级,有90%的置信度,接受它。如果说它属于C类,有60%的置信度,那就是最好的价值,可能会拒绝这个建议。您可以通过函数-getClassificationScores(documentation: http://mallet.cs.umass.edu/api/cc/mallet/classify/MaxEnt.html#getClassificationScores(cc.mallet.types.Instance,double [])获得分类分数

  2. 你可以在python中学习scikit。我听说如果它不知道您的网页属于哪个类,它会告诉NA