我是Weka的新手。我试图在OCR过程之后对文本文档进行分类。培训语料库包含286份抵押文件和57份票据文件。测试数据集包含1-100个文本页面。因此,训练和测试数据集的每一行都包含几段文本数据。分类后,文本文件应妥善分类为抵押或票据。
我正在进行StringToWordVector
操作,将训练和测试数据集与测试数据集中的缺失值相结合,即"?"。
步骤如下:
使用以下命令行创建训练Arff文件:
java -cp weka.jar weka.core.converters.TextDirectoryLoader -dir< text directory>
这会创建一个包含已知类的训练数据集,即抵押,注意
创建缺少类的测试Arff文件,即"?"
结合训练和测试数据集
使用以下命令行运行分类器:
java -cp weka.jar weka.classifiers.meta.FilteredClassifier -t train.arff -test.arff -F" weka.filters.MultiFilter -F weka.filters.unsupervised.attribute.StringToWordVector -F weka .filters.unsupervised.attribute.Standardize" -d trained.model -p 0
我也从Weka GUI和命令行运行上面的例子。就命令而言,一切正常。结果不正常。一点也不正确。
我还尝试单独运行StringToWordVector
操作,并通过数据集上的NaiveBayes
,NaiveBayesMultiNomial
,J48
和其他多类分类器进行测试,但分类预测不正确。总是给出异常结果。
请帮助我获得正确的预测结果。如果上述步骤正确且我做错了,请告诉我。