对于OpenNLP中的NER培训,是否存在“最佳”标记?

时间:2018-05-01 18:20:29

标签: nlp training-data opennlp ner

OpenNLP中的NER培训是否有“最佳”标记?我注意到OpenNLP提供了一个max-entropy tokenizer,允许你根据训练有素的模型进行标记。我还注意到OpenNLP提供了一个简单的标记化器。如果我在运行时使用相同的标记器来训练我的模型,那么我使用哪个标记器是否重要?

我宁愿在我的应用程序中使用简单的标记器。

1 个答案:

答案 0 :(得分:0)

对于大多数应用程序而言,令牌化程序的质量不是很重要,只要您在训练中使用相同的质量,并且在您应该没问题之后。

然而,唯一可以确定的方法是尝试使用不同的标记器并比较结果 - 对于某些应用程序,良好的标记器和很好的标记器之间的区别可能很重要。