应用错误收集

培训NER时，Spacy语言是独立的吗？

时间：2018-04-27 18:07:36

标签： python nlp spacy

如果我从头开始训练NER模型，语言是否重要？在API中我设置了语言，但我也为API提供了命名实体的跨度。命令行格式更进一步，我给每个句子的每个标记赋予NER标签。例如，我可以使用ICU对日语进行标记，标记标记，然后将其提供给Spacy吗？

2 个答案:

答案 0 :(得分：1)

Spacy使用由pipeline组成的标记器，标记器，解析器和实体识别器。这意味着每个级别的输出只是作为输入提供给下一级别，因此，例如，如果我对en标记使用fr标记符，则不会发生错误但是en语言中的标记异常和标准异常会影响我的fr文件，所以准确性会降低。

答案 1 :(得分：1)

从Spacy 2.0开始，setting the language to xx将训练一个独立于语言的模型和pipeline can be customized。虽然tokenizer，tagger和parser都依赖于语言，但可以禁用标记器和解析器。如果GoldParse class用于提供预标记化输入，则可以跳过标记化器。使用命令行工具非常简单。 spacy train可以选择禁用标记器和解析器，input format是预先标记的。 spacy convert可用于将标准NER文件格式转换为Spacy的格式。