我正在尝试使用nltk.sent_tokenize
将一些客户的评论拆分为句子。我已经尝试使用以下代码解决一些问题:
comment = comment.replace('?', '? ').replace('!', '! ').replace('..','.').replace('.', '. ')
但我不知道如何解决以下问题:
客户在一些句子后使用了几个"."
。例如:
Think tool is a huge factor in this....i have only
客户在一些句子后使用了多个"!"
,例如auditory subject everyday!!!!!
其中一些在句子末尾使用了"!"
和"."
的组合。
因为我已经使用过replace('.', '. ')
,所以它也会导致以下问题:
体重增加(20lbs.)
,已分为(20lbs.
)
有什么建议吗?我正在使用Python。
答案 0 :(得分:0)
尝试使用Punkt Sentence Tokenizer。它经过预先训练,可以有效地分割句子,并且很容易被腌制成代码。