培训NER时,Spacy语言是独立的吗?

时间:2018-04-27 18:07:36

标签: python nlp spacy

如果我从头开始训练NER模型,语言是否重要?在API中我设置了语言,但我也为API提供了命名实体的跨度。命令行格式更进一步,我给每个句子的每个标记赋予NER标签。例如,我可以使用ICU对日语进行标记,标记标记,然后将其提供给Spacy吗?

2 个答案:

答案 0 :(得分:1)

Spacy使用由pipeline组成的标记器,标记器,解析器和实体识别器。这意味着每个级别的输出只是作为输入提供给下一级别,因此,例如,如果我对en标记使用fr标记符,则不会发生错误但是en语言中的标记异常和标准异常会影响我的fr文件,所以准确性会降低。

答案 1 :(得分:1)

从Spacy 2.0开始,setting the language to xx将训练一个独立于语言的模型和pipeline can be customized。虽然tokenizer,tagger和parser都依赖于语言,但可以禁用标记器和解析器。如果GoldParse class用于提供预标记化输入,则可以跳过标记化器。使用命令行工具非常简单。 spacy train可以选择禁用标记器和解析器,input format是预先标记的。 spacy convert可用于将标准NER文件格式转换为Spacy的格式。