Question

我从网站下载了一篇论文，想用NLTK用完整的句子进行主题建模。因此，我试图在文本文件中排除不相关的单词或不完整的句子。但是，我仍然无法删除这些单词。

我只想得到最后一句话。并且如下面的代码是将文本分成句子列表。

tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
tokenizer.tokenize(data)
print('\n'.join(tokenizer.tokenize(data)))

但是，我怎么能逐行排除那些单词呢？谢谢

Answer 1

这可以通过在文本文件的每一行上使用split方法来完成。

file_list = []
file = open('Your Text File.txt', 'r')
for line in file:
    splitted_lines = line.split(' ')
    if len(splitted_lines) > 1 :
        file_list.append(' '.join(splitted_lines))

outfile = ''.join(file_list)
file_out = open('outfile.txt', 'w')
file_out.write(outfile)

使用python从文本文件中提取段落并排除目录和标题

1 个答案: