如果我从头开始训练NER模型,语言是否重要?在API中我设置了语言,但我也为API提供了命名实体的跨度。命令行格式更进一步,我给每个句子的每个标记赋予NER标签。例如,我可以使用ICU对日语进行标记,标记标记,然后将其提供给Spacy吗?
答案 0 :(得分:1)
Spacy使用由pipeline组成的标记器,标记器,解析器和实体识别器。这意味着每个级别的输出只是作为输入提供给下一级别,因此,例如,如果我对en
标记使用fr
标记符,则不会发生错误但是en
语言中的标记异常和标准异常会影响我的fr
文件,所以准确性会降低。
答案 1 :(得分:1)
从Spacy 2.0开始,setting the language to xx
将训练一个独立于语言的模型和pipeline can be customized。虽然tokenizer,tagger和parser都依赖于语言,但可以禁用标记器和解析器。如果GoldParse class用于提供预标记化输入,则可以跳过标记化器。使用命令行工具非常简单。 spacy train
可以选择禁用标记器和解析器,input format是预先标记的。 spacy convert
可用于将标准NER文件格式转换为Spacy的格式。