如何在OpenNLP中使用自定义拆分字符扩展SentenceDetector?

时间:2015-08-06 05:56:49

标签: java nlp opennlp

我正在尝试在句子检测器模型(OpenNLP)中添加自定义功能。默认情况下,它会根据这些字符进行检测。 !我想添加一个新角色,以便我的模型可以根据它进行检测。

你能建议我如何实现它吗?

1 个答案:

答案 0 :(得分:2)

对于OpenNLP 1.6.0,您可以使用SentenceDetectorFactory。它的构造函数允许你注入自定义句末(eos)字符(参见JavaDoc):

  

SentenceDetectorFactory(String languageCode,boolean useTokenEnd,Dictionary abbreviationDictionary,char [] eosCharacters)

结合SentenceDetectorME,我们在相应的JavaDoc

中提供了此提示
  

public SentenceDetectorME(SentenceModel model,                     工厂工厂)

     

已过时。使用SentenceDetectorFactory扩展SentenceDetector功能。

因此,您可以通过使用自定义SentenceDetector的已交换实例扩展SentenceDetectorME来实现{em>自己的实现SentenceDetectorFactory,然后使用其他字符来检测句子结局。

希望它有所帮助。