Question

我有一些文本文件。我想使用NLTK进行预处理并以纯文本.text格式打印词汇表，以便我可以分发这些文件供人们使用。我做了以下操作。我开始采取单一文件：

file1 = open("path/to/text/file","rU")
raw = file1.read()
tokens = nltk.wordpunct_tokenize(raw)
words = [w.lower for w in tokens]
vocab = sorted(set(tokens))

现在我想将词汇中的项目列入纯文本.txt人类可读文件。我该怎么办？

Answer 1

手动写出：

with open("output.txt", "w") as f:
    for item in vocab:
        f.write(item + "\n")

在python中创建词汇表

1 个答案: