使用python从文本文件中提取段落并排除目录和标题

时间:2018-04-19 01:51:47

标签: python nltk

我从网站下载了一篇论文,想用NLTK用完整的句子进行主题建模。因此,我试图在文本文件中排除不相关的单词或不完整的句子。但是,我仍然无法删除这些单词。

例如, the format in text file

我只想得到最后一句话。并且如下面的代码是将文本分成句子列表。

tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
tokenizer.tokenize(data)
print('\n'.join(tokenizer.tokenize(data)))

但是,我怎么能逐行排除那些单词呢? 谢谢

1 个答案:

答案 0 :(得分:0)

这可以通过在文本文件的每一行上使用split方法来完成。

file_list = []
file = open('Your Text File.txt', 'r')
for line in file:
    splitted_lines = line.split(' ')
    if len(splitted_lines) > 1 :
        file_list.append(' '.join(splitted_lines))

outfile = ''.join(file_list)
file_out = open('outfile.txt', 'w')
file_out.write(outfile)