我总是使用英语或德语的spacy库。
要加载库,我使用了以下代码:
import spacy
nlp = spacy.load('en')
我想使用西班牙语tokeniser,但我不知道怎么做,因为spacy没有西班牙语模型。 我试过这个
python -m spacy download es
然后:
nlp = spacy.load('es')
但显然没有任何成功。
有人知道如何以正确的方式用西班牙语标记西班牙语句子吗?
答案 0 :(得分:6)
对于版本1.6,此代码正常运行:
from spacy.es import Spanish
nlp = Spanish()
但是在版本1.7.2中需要进行一些改动:
from spacy.es import Spanish
nlp = Spanish(path=None)
来源:@honnibal在gitter chat中
答案 1 :(得分:0)
这对我有用:
python -m spacy download es_core_news_sm
import spacy
nlp = spacy.load("es_core_news_sm")
答案 2 :(得分:0)
首先,您将必须使用命令行下载西班牙语模型(“ es”表示西班牙语)(当前有两种预训练的西班牙语模型可用):
选择中小型版本,使用命令行下载它们:
python -m spacy download es_core_news_sm
python -m spacy download es_core_news_md
然后根据模型名称在python中加载所选模型:
import spacy
nlp = spacy.load("es_core_news_sm")
或:
import spacy
nlp = spacy.load("es_core_news_md")
查看文档以获取模型更新: https://spacy.io/models/es