Question

我正在尝试将文件读入我的python程序并在其上应用tokenizer将文本拆分为一组句子。但是，在我的输出中，我得到了我想在输出中避免的'/ n'字符，因为它可能会阻碍我对句子的进一步处理。我使用read（）命令读取输入。也试过readline（）。我仍然在输出中获取换行符。有关避免这种情况的任何建议吗？

file_sent = open(path,'r')
all_sents = file_sent.read()
sent_all = print all_sents
tokenized_sents = sent_tokenize(sent_all)

Answer 1

如果您想完全删除新行：

all_sents = file_sent.read().replace('\n', '')

如果您想用空格替换它们：

all_sents = file_sent.read().replace('\n', ' ')

显然，如果你愿意，你可以用别的东西替换它们。

格式化Python中的文件输入

1 个答案: