我正在使用python for NLP。但是当我使用没有任何标点符号的任何文本时,我遇到了问题。但是,如果我无法通过sent_tokenizer从文件中选择一行,则句子会一个接一个地出现,因为它与fullstop(。)标点符号一起使用。如果有人知道如何从没有标点符号的文本中选择行的解决方案,这将对我非常有帮助。
答案 0 :(得分:1)
检查str.split(sep,[maxsplit])方法,选择正确的分隔符,你应该能够做你想做的事 str.splitlines([keepends])对我来说也很有用。