泰语Maxent模型生成

时间:2017-04-28 05:13:35

标签: nlp opennlp

使用ApacheOpenNlp为泰语等语言创建模型时,标记化和使用标记化语料库来训练MxentModel是好的,或者应该使用未加注语句。

1 个答案:

答案 0 :(得分:2)

是的,您应该对您的训练语料库以及在运行期间对您的句子进行标记。

例如,如果你有一个名字查找器训练语料库,很容易使用相同的语料库训练一个标记器。从命令行,您可以运行

sh bin/opennlp TokenizerTrainer.namefinder

它将从名称搜索语料库训练标记化器。

<强>更新 这个answer解释了如何使用旧泰国模型。