使用spacy西班牙语Tokenizer

时间:2017-03-22 09:40:31

标签: python nlp tokenize spacy

我总是使用英语或德语的spacy库。

要加载库,我使用了以下代码:

import spacy
nlp = spacy.load('en')

我想使用西班牙语tokeniser,但我不知道怎么做,因为spacy没有西班牙语模型。 我试过这个

python -m spacy download es

然后:

nlp = spacy.load('es')

但显然没有任何成功。

有人知道如何以正确的方式用西班牙语标记西班牙语句子吗?

3 个答案:

答案 0 :(得分:6)

对于版本1.6,此代码正常运行:

from spacy.es import Spanish
nlp = Spanish()

但是在版本1.7.2中需要进行一些改动:

from spacy.es import Spanish
nlp = Spanish(path=None)

来源:@honnibal在gitter chat中

答案 1 :(得分:0)

这对我有用:

python -m spacy download es_core_news_sm


import spacy
nlp = spacy.load("es_core_news_sm")

答案 2 :(得分:0)

首先,您将必须使用命令行下载西班牙语模型(“ es”表示西班牙语)(当前有两种预训练的西班牙语模型可用):

  • es_core_news_sm
  • es_core_news_md

选择中小型版本,使用命令行下载它们:

python -m spacy download es_core_news_sm

python -m spacy download es_core_news_md

然后根据模型名称在python中加载所选模型:

import spacy
nlp = spacy.load("es_core_news_sm")

或:

import spacy
nlp = spacy.load("es_core_news_md")

查看文档以获取模型更新: https://spacy.io/models/es