在python中创建词汇表

时间:2012-03-28 14:54:02

标签: python text nltk vocabulary

我有一些文本文件。我想使用NLTK进行预处理并以纯文本.text格式打印词汇表,以便我可以分发这些文件供人们使用。我做了以下操作。我开始采取单一文件:

file1 = open("path/to/text/file","rU")
raw = file1.read()
tokens = nltk.wordpunct_tokenize(raw)
words = [w.lower for w in tokens]
vocab = sorted(set(tokens))

现在我想将词汇中的项目列入纯文本.txt人类 可读文件。我该怎么办?

1 个答案:

答案 0 :(得分:4)

手动写出:

with open("output.txt", "w") as f:
    for item in vocab:
        f.write(item + "\n")