使用ApacheOpenNlp为泰语等语言创建模型时,标记化和使用标记化语料库来训练MxentModel是好的,或者应该使用未加注语句。
答案 0 :(得分:2)
是的,您应该对您的训练语料库以及在运行期间对您的句子进行标记。
例如,如果你有一个名字查找器训练语料库,很容易使用相同的语料库训练一个标记器。从命令行,您可以运行
sh bin/opennlp TokenizerTrainer.namefinder
它将从名称搜索语料库训练标记化器。
<强>更新强> 这个answer解释了如何使用旧泰国模型。