斯坦福NLP:标点符号错误识别

时间:2016-06-11 22:56:09

标签: nlp stanford-nlp

我刚刚开始使用Stanford NLP核心。

我的问题是我的语料库中的许多句子都没有以句号(句号)结束。

坦率地说,使用正则表达式进行一些字符串解析可能会解决问题,但会出现一定程度的错误。

我很好奇Stanford NLP是否可以识别失踪期。

1 个答案:

答案 0 :(得分:1)

看起来edu.stanfordn.nlp.process.DocumentPreprocessor可以用来将段落分成句子,但如果没有正确的标点,我不确定它的效果如何。

还有许多其他句子级标记符可用于预处理语料库,请查看NLTK的nltk.tokenize.punkt module,它使用ML算法在没有良好的大写/标点符号的情况下制作句子标记。