将自定义数据转换为spacy ner格式

时间:2019-08-19 06:29:29

标签: spacy

我正在使用天才来训练自定义NER模型,但是我也想尝试spacy,但是我的数据目前采用这种格式

No O
1320160208478 B-NUM
P O
R O
Name O
Ryan B-PER
Dsouza B-PER

关于我如何以spacy NER格式进行格式化的任何建议? 预先感谢。

1 个答案:

答案 0 :(得分:1)

Spacy具有一些常见格式的内置转换器,但这不是其中的一种。我认为最容易转换的格式是CoNLL 2003 NER格式,该格式将需要两个额外的以空格分隔的列,这些列之间的单词和标签之间使用占位符值,以便IOB标签位于第4列:

No _ _ O
1320160208478 _ _ B-NUM
P _ _ O
R _ _ O
Name _ _ O
Ryan _ _ B-PER
Dsouza _ _ B-PER

在句子之间插入空白行,如果一个文件中有多个文档,则可以在文档之间添加空白行以分隔它们。


-DOCSTART- -X- O O

然后您可以使用内置转换器:

python -m spacy convert -c ner input.txt output_dir

(而且,您确定一行中的两个B-PER标签对您数据中的Ryan Dsouza是正确的吗?)