对没有标点符号的段落执行句子分段?

时间:2017-06-02 12:12:16

标签: algorithm text nlp stanford-nlp opennlp

我有一堆格式错误的文字,标点丢失很多。我想知道是否有任何方法可以在缺少句点,分号,大写等时将文本分段为句子。

例如,考虑一下这段:“狮子被称为森林之王,它有一种雄伟的外表它吃肉,它能跑得很快,狮子的轰鸣声非常有名”
该文本应分为单独的句子:

  • 狮子被称为森林之王
  • 外观雄伟
  • 它吃肉
  • 可以非常快速地运行
  • 狮子的吼声非常有名

可以这样做还是不可能?任何建议都非常感谢!

0 个答案:

没有答案