Question

使用ApacheOpenNlp为泰语等语言创建模型时，标记化和使用标记化语料库来训练MxentModel是好的，或者应该使用未加注语句。

Answer 1

是的，您应该对您的训练语料库以及在运行期间对您的句子进行标记。

例如，如果你有一个名字查找器训练语料库，很容易使用相同的语料库训练一个标记器。从命令行，您可以运行

sh bin/opennlp TokenizerTrainer.namefinder

它将从名称搜索语料库训练标记化器。

<强>更新这个answer解释了如何使用旧泰国模型。