我正在使用天才来训练自定义NER模型,但是我也想尝试spacy,但是我的数据目前采用这种格式
No O
1320160208478 B-NUM
P O
R O
Name O
Ryan B-PER
Dsouza B-PER
关于我如何以spacy NER格式进行格式化的任何建议? 预先感谢。
答案 0 :(得分:1)
Spacy具有一些常见格式的内置转换器,但这不是其中的一种。我认为最容易转换的格式是CoNLL 2003 NER格式,该格式将需要两个额外的以空格分隔的列,这些列之间的单词和标签之间使用占位符值,以便IOB标签位于第4列:
No _ _ O
1320160208478 _ _ B-NUM
P _ _ O
R _ _ O
Name _ _ O
Ryan _ _ B-PER
Dsouza _ _ B-PER
在句子之间插入空白行,如果一个文件中有多个文档,则可以在文档之间添加空白行以分隔它们。
-DOCSTART- -X- O O
然后您可以使用内置转换器:
python -m spacy convert -c ner input.txt output_dir
(而且,您确定一行中的两个B-PER
标签对您数据中的Ryan Dsouza
是正确的吗?)