我有一些文本文件。我想使用NLTK进行预处理并以纯文本.text格式打印词汇表,以便我可以分发这些文件供人们使用。我做了以下操作。我开始采取单一文件:
file1 = open("path/to/text/file","rU")
raw = file1.read()
tokens = nltk.wordpunct_tokenize(raw)
words = [w.lower for w in tokens]
vocab = sorted(set(tokens))
现在我想将词汇中的项目列入纯文本.txt
人类
可读文件。我该怎么办?
答案 0 :(得分:4)
手动写出:
with open("output.txt", "w") as f:
for item in vocab:
f.write(item + "\n")