我是Mallet的新手并使用它制作MaxEnt模型。我想要实现的是我想在某些类别中对文本进行分类。 (使用类别的示例名称)我将我的训练数据放在名为fruits_training_data
的文件夹中,该文件夹包含4个文件:
apples.txt
bananas.txt
oranges.txt
mangoes.txt
首先,我使用此命令在mallet中导入此数据。
bin\mallet import-dir --input fruits_training_data --output fruits_training.mallet
我还在单独的文件夹和单独的文件中测试每个类别的数据。它的层次结构也是一样的。文件夹名称为fruits_testing_data
。它与培训文件夹具有相同的文件名。我对测试数据做了同样的事情。
bin\mallet import-dir --input fruits_testing_data --output fruits_testing.mallet
然后我使用此命令制作MaxEnt模型。
bin\mallet train-classifier --training-file fruits_training.mallet --testing-file fruits_testing.mallet --trainer MaxEnt --report test:accuracy
这给我一个错误:
培训和测试字母不匹配! 在cc.mallet.classify.tui.Vectors2Classify.main(Vectors2Classify.java:27 5)
我搜索了这个,直到现在才找到任何帮助。有人可以帮我弄清楚我在做错的那一步吗?非常感谢你。