使用nltk.sent_tokenize拆分句子,它不能提供正确的结果

时间:2016-10-03 02:33:47

标签: python nlp nltk

我正在尝试使用nltk.sent_tokenize将一些客户的评论拆分为句子。我已经尝试使用以下代码解决一些问题:

comment = comment.replace('?', '? ').replace('!', '! ').replace('..','.').replace('.', '. ')

但我不知道如何解决以下问题:

  1. 客户在一些句子后使用了几个"."。例如:

    Think tool is a huge factor in this....i have only
    
  2. 客户在一些句子后使用了多个"!",例如auditory subject everyday!!!!!

  3. 其中一些在句子末尾使用了"!""."的组合。

  4. 因为我已经使用过replace('.', '. '),所以它也会导致以下问题:

    体重增加(20lbs.),已分为(20lbs. )

  5. 有什么建议吗?我正在使用Python。

1 个答案:

答案 0 :(得分:0)

尝试使用Punkt Sentence Tokenizer。它经过预先训练,可以有效地分割句子,并且很容易被腌制成代码。