OpenNLP API中句子检测类背后使用的逻辑是什么?是吗:
有人可以解释一下吗?
另外:如何在Parsing API中完成解析,即使用的逻辑是什么?
答案 0 :(得分:3)
official OpenNLP documentation(第2章)应该给你一个基本的了解。它声明:
OpenNLP Sentence Detector可以检测到标点符号是否标记了句子的结尾。在这个意义上,句子被定义为两个标点符号之间的最长白色空间修剪字符序列。第一句和最后一句是对此规则的例外。假设第一个非空白字符是句子的开头,并且假设最后一个非空白字符是句子结尾。下面的示例文本应该分成句子....
在内部,OpenNLP使用预先训练的模型。这些models are available for different languages涵盖了广泛的语言特征。
然而,有可能训练你自己的"可能更适合您想要输入句子检测器的文本材料的模型。 OpenNLP中相应的部分和相关的JavaDoc页面应该为您提供指导。
如果您对解析过程感兴趣,可以阅读此StackOverflow question及相关答案,因为他们会讨论ParserModel
以及如何使用相关的类。
希望它有所帮助。