Weka:文本文档的多类分类,给出异常结果

时间:2014-09-04 11:35:43

标签: machine-learning weka

我是Weka的新手。我试图在OCR过程之后对文本文档进行分类。培训语料库包含286份抵押文件和57份票据文件。测试数据集包含1-100个文本页面。因此,训练和测试数据集的每一行都包含几段文本数据。分类后,文本文件应妥善分类为抵押或票据。

我正在进行StringToWordVector操作,将训练和测试数据集与测试数据集中的缺失值相结合,即"?"。

步骤如下:

  1. 使用以下命令行创建训练Arff文件:

      

    java -cp weka.jar weka.core.converters.TextDirectoryLoader -dir< text directory>

    这会创建一个包含已知类的训练数据集,即抵押,注意

  2. 创建缺少类的测试Arff文件,即"?"

  3. 结合训练和测试数据集

  4. 使用以下命令行运行分类器:

      

    java -cp weka.jar weka.classifiers.meta.FilteredClassifier -t train.arff -test.arff -F" weka.filters.MultiFilter -F weka.filters.unsupervised.attribute.StringToWordVector -F weka .filters.unsupervised.attribute.Standardize" -d trained.model -p 0

  5. 我也从Weka GUI和命令行运行上面的例子。就命令而言,一切正常。结果不正常。一点也不正确。

    我还尝试单独运行StringToWordVector操作,并通过数据集上的NaiveBayesNaiveBayesMultiNomialJ48和其他多类分类器进行测试,但分类预测不正确。总是给出异常结果。

    请帮助我获得正确的预测结果。如果上述步骤正确且我做错了,请告诉我。

0 个答案:

没有答案