我已经安装了nlpnet(http://nilc.icmc.usp.br/nlpnet/),但我无法找到运行词性标注器所需的metadata_pos.pickle文件。这个文件似乎不在我的机器上,并且不包含在当前的github存储库中 有什么建议吗?
答案 0 :(得分:0)
您需要下载nlpnet-data(PoS,SRL和依赖关系的模型)。它可以在http://nilc.icmc.usp.br/nlpnet/models.html上找到。 PoS标记模型文件Metadata_pos.pickle在http://nilc.icmc.usp.br/nlpnet/data/pos-pt.tgz
中可用答案 1 :(得分:0)
您需要从此页面http://nilc.icmc.usp.br/nlpnet/models.html(POS或SRL)下载模型
解压缩某个文件夹中的文件,比如说“ / Users / Downloads”,然后像这样导入您的代码:
import nlpnet
nlpnet.set_data_dir('/Users/Downloads/pos-pt')
# Now you can start using it
tagger = nlpnet.POSTagger()
op = tagger.tag('texto em portugues')
答案 2 :(得分:-1)
要训练模型,你需要每行一个句子的示例,其中包含由下划线字符连接的标记和标记:
This_DT is_VBZ an_DT example_NN
将此命令与您的语料库一起使用,您将生成使用POS标记器所需的数据(包括metadata_pos.pickle):
nlpnet-train.py pos --gold /path/to/training-data.txt
如果您想使用已经训练过的模型,他们会有一个here。它是用巴西葡萄牙语新闻语料库Mac-Morpho Corpus进行训练/评估的,所以它可能不适用于其他语言。