使用nltk pos tagger时出现错误的zip文件错误

时间:2015-05-02 23:18:40

标签: python nltk

我试图使用NLTK POS-tagger,但我得到了一个" zipfile.BadZipfile:文件不是zip文件"错误。

错误来自此代码:

import nltk
sentence = "I love python"
tokens = nltk.word_tokenize(sentence)
pos_tags = nltk.pos_tag(tokens)
print nltk.ne_chunk(pos_tags, binary=True)

我发现this question与我的问题有关。不幸的是,我无法下载整个语料库,因为我在服务器上工作并且有很多内存限制。有人能指出我需要的特定文件,所以我可以只下载那个而不是整个语料库吗?

(我使用的是Python 2.7.6)

1 个答案:

答案 0 :(得分:1)

试试这些:

nltk.download("maxent_treebank_pos_tagger")
nltk.download("maxent_ne_chunker")
nltk.download("punkt")

前两个分别用于POS标记和命名实体。您在代码示例中未使用的第三个,但您需要nltk.sent_tokenize(),这会将纯文本分解为句子。由于您正在处理POS标签,我还会下载这些标签(它们很小):

nltk.download(["tagsets", "universal_tagset"])

如果你有足够的空间,请下载整本书#34;集合将为您提供探索NLTK所需的一切。