OpenNLP句子检测API,句子检测的逻辑?

时间:2015-12-17 07:37:14

标签: java nlp text-mining opennlp

OpenNLP API中句子检测类背后使用的逻辑是什么?是吗:

  • 基于“。”检测或
  • 最长的空格修剪字符序列或
  • 别的。

有人可以解释一下吗?

另外:如何在Parsing API中完成解析,即使用的逻辑是什么?

1 个答案:

答案 0 :(得分:3)

official OpenNLP documentation(第2章)应该给你一个基本的了解。它声明:

  

OpenNLP Sentence Detector可以检测到标点符号是否标记了句子的结尾。在这个意义上,句子被定义为两个标点符号之间的最长白色空间修剪字符序列。第一句和最后一句是对此规则的例外。假设第一个非空白字符是句子的开头,并且假设最后一个非空白字符是句子结尾。下面的示例文本应该分成句子....

在内部,OpenNLP使用预先训练的模型。这些models are available for different languages涵盖了广泛的语言特征。

然而,有可能训练你自己的"可能更适合您想要输入句子检测器的文本材料的模型。 OpenNLP中相应的部分和相关的JavaDoc页面应该为您提供指导。

如果您对解析过程感兴趣,可以阅读此StackOverflow question及相关答案,因为他们会讨论ParserModel以及如何使用相关的类。

希望它有所帮助。