我已经在槌的cmd提示界面上测试了SimpleTagger的序列标记。我现在想训练许多文件并批量运行测试。在槌的命令提示符下是否也可以这样做?在开始使用JAVA API之前,我想对当前任务的算法性能有所了解。
我已经看到Classification tasks可以从命令提示符处批量运行。
我在某个地方找到了对“ http://mallet.cs.umass.edu/index.php/Command_line_tutorial”的引用,但该链接似乎已断开。
答案 0 :(得分:0)
经过一番探索,我了解到无法轻易使用cc.mallet.fst.SimpleTagger进行批处理评估。相反,我发现cc.mallet.examples.TrainCRF是一个方便的代码(使用SimpleTagger)。该代码将训练和测试数据集(以Mallet序列标签格式,实例用单行分隔)作为输入参数,仅此而已。
我使用了Mallet页面上的mallet-2.0.8 installation。
请注意不要根据测试集的性能来调整模型。您应该避免这种情况,并且在对训练集上的模型进行充分调整之前,也许不验证测试集上的性能。