OpenNLP中的NER培训是否有“最佳”标记?我注意到OpenNLP提供了一个max-entropy tokenizer,允许你根据训练有素的模型进行标记。我还注意到OpenNLP提供了一个简单的标记化器。如果我在运行时使用相同的标记器来训练我的模型,那么我使用哪个标记器是否重要?
我宁愿在我的应用程序中使用简单的标记器。
答案 0 :(得分:0)
对于大多数应用程序而言,令牌化程序的质量不是很重要,只要您在训练中使用相同的质量,并且在您应该没问题之后。
然而,唯一可以确定的方法是尝试使用不同的标记器并比较结果 - 对于某些应用程序,良好的标记器和很好的标记器之间的区别可能很重要。