我从网站下载了一篇论文,想用NLTK用完整的句子进行主题建模。因此,我试图在文本文件中排除不相关的单词或不完整的句子。但是,我仍然无法删除这些单词。
我只想得到最后一句话。并且如下面的代码是将文本分成句子列表。
tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
tokenizer.tokenize(data)
print('\n'.join(tokenizer.tokenize(data)))
但是,我怎么能逐行排除那些单词呢? 谢谢
答案 0 :(得分:0)
这可以通过在文本文件的每一行上使用split方法来完成。
file_list = []
file = open('Your Text File.txt', 'r')
for line in file:
splitted_lines = line.split(' ')
if len(splitted_lines) > 1 :
file_list.append(' '.join(splitted_lines))
outfile = ''.join(file_list)
file_out = open('outfile.txt', 'w')
file_out.write(outfile)