nlpnet从哪里获取它的元数据pickle文件?

时间:2014-12-23 14:32:38

标签: python nlp nltk

我已经安装了nlpnet(http://nilc.icmc.usp.br/nlpnet/),但我无法找到运行词性标注器所需的metadata_pos.pickle文件。这个文件似乎不在我的机器上,并且不包含在当前的github存储库中 有什么建议吗?

3 个答案:

答案 0 :(得分:0)

您需要下载nlpnet-data(PoS,SRL和依赖关系的模型)。它可以在http://nilc.icmc.usp.br/nlpnet/models.html上找到。 PoS标记模型文件Metadata_pos.pickle在http://nilc.icmc.usp.br/nlpnet/data/pos-pt.tgz

中可用

答案 1 :(得分:0)

您需要从此页面http://nilc.icmc.usp.br/nlpnet/models.html(POS或SRL)下载模型

解压缩某个文件夹中的文件,比如说“ / Users / Downloads”,然后像这样导入您的代码:

import nlpnet
nlpnet.set_data_dir('/Users/Downloads/pos-pt')

# Now you can start using it
tagger = nlpnet.POSTagger()
op = tagger.tag('texto em portugues')

答案 2 :(得分:-1)

要训练模型,你需要每行一个句子的示例,其中包含由下划线字符连接的标记和标记:

This_DT is_VBZ an_DT example_NN 

将此命令与您的语料库一起使用,您将生成使用POS标记器所需的数据(包括metadata_pos.pickle):

nlpnet-train.py pos --gold /path/to/training-data.txt

如果您想使用已经训练过的模型,他们会有一个here。它是用巴西葡萄牙语新闻语料库Mac-Morpho Corpus进行训练/评估的,所以它可能不适用于其他语言。