格式化Python中的文件输入

时间:2011-10-28 22:54:11

标签: python nltk

我正在尝试将文件读入我的python程序并在其上应用tokenizer将文本拆分为一组句子。但是,在我的输出中,我得到了我想在输出中避免的'/ n'字符,因为它可能会阻碍我对句子的进一步处理。 我使用read()命令读取输入。也试过readline()。我仍然在输出中获取换行符。有关避免这种情况的任何建议吗?

file_sent = open(path,'r')
all_sents = file_sent.read()
sent_all = print all_sents
tokenized_sents = sent_tokenize(sent_all)

1 个答案:

答案 0 :(得分:2)

如果您想完全删除新行:

all_sents = file_sent.read().replace('\n', '')

如果您想用空格替换它们:

all_sents = file_sent.read().replace('\n', ' ')

显然,如果你愿意,你可以用别的东西替换它们。