我正在尝试将文件读入我的python程序并在其上应用tokenizer将文本拆分为一组句子。但是,在我的输出中,我得到了我想在输出中避免的'/ n'字符,因为它可能会阻碍我对句子的进一步处理。 我使用read()命令读取输入。也试过readline()。我仍然在输出中获取换行符。有关避免这种情况的任何建议吗?
file_sent = open(path,'r')
all_sents = file_sent.read()
sent_all = print all_sents
tokenized_sents = sent_tokenize(sent_all)
答案 0 :(得分:2)
如果您想完全删除新行:
all_sents = file_sent.read().replace('\n', '')
如果您想用空格替换它们:
all_sents = file_sent.read().replace('\n', ' ')
显然,如果你愿意,你可以用别的东西替换它们。