使用Mallet cmd提示批量标记序列

时间:2018-10-04 15:54:35

标签: mallet

我已经在槌的cmd提示界面上测试了SimpleTagger的序列标记。我现在想训练许多文件并批量运行测试。在槌的命令提示符下是否也可以这样做?在开始使用JAVA API之前,我想对当前任务的算法性能有所了解。

我已经看到Classification tasks可以从命令提示符处批量运行。

  • 是否可以批量使用SimpleTagger?如果没有
  • 有人可以指向我参考代码,其中使用Java API批量完成了序列标记。

我在某个地方找到了对“ http://mallet.cs.umass.edu/index.php/Command_line_tutorial”的引用,但该链接似乎已断开。

1 个答案:

答案 0 :(得分:0)

经过一番探索,我了解到无法轻易使用cc.mallet.fst.SimpleTagger进行批处理评估。相反,我发现cc.mallet.examples.TrainCRF是一个方便的代码(使用SimpleTagger)。该代码将训练和测试数据集(以Mallet序列标签格式,实例用单行分隔)作为输入参数,仅此而已。

我使用了Mallet页面上的mallet-2.0.8 installation

请注意不要根据测试集的性能来调整模型。您应该避免这种情况,并且在对训练集上的模型进行充分调整之前,也许不验证测试集上的性能。