应用错误收集

对于OpenNLP中的NER培训，是否存在“最佳”标记？

时间：2018-05-01 18:20:29

标签： nlp training-data opennlp ner

OpenNLP中的NER培训是否有“最佳”标记？我注意到OpenNLP提供了一个max-entropy tokenizer，允许你根据训练有素的模型进行标记。我还注意到OpenNLP提供了一个简单的标记化器。如果我在运行时使用相同的标记器来训练我的模型，那么我使用哪个标记器是否重要？

我宁愿在我的应用程序中使用简单的标记器。

1 个答案:

答案 0 :(得分：0)

对于大多数应用程序而言，令牌化程序的质量不是很重要，只要您在训练中使用相同的质量，并且在您应该没问题之后。

然而，唯一可以确定的方法是尝试使用不同的标记器并比较结果 - 对于某些应用程序，良好的标记器和很好的标记器之间的区别可能很重要。