我正在尝试从Stanford Core NLP生成一个conll文件,然后可以将其用作Semafor的输入(因为semafor仅接受conll文件)。
生成的文件如下所示:
1 My my PRP$ O 2 nmod:poss
2 kitchen kitchen NN O 5 nsubj
3 no no RB O 4 neg
4 longer longer RB O 5 advmod
5 smells smell VBZ O 0 ROOT
6 . . . O 5 punct
当我使用此文件时,Semafor服务器返回illegalArgument异常,因为格式略有不同。他们的示例conll文件如下所示:
1 My _ PRP$ PRP$ _ 2 NMOD _ _
2 kitchen _ NN NN _ 5 SBJ _ _
3 no _ RB RB _ 5 ADV _ _
4 longer _ RB RB _ 3 AMOD _ _
5 smells _ VBZ VBZ _ 0 ROOT _ _
6 . _ . . _ 5 P _ _
似乎我可以通过定义键来控制输出。默认键是ID,FORM,LEMMA,POSTAG,NER,HEAD,DEPREL。但是,我不知道Semafor提供的示例conll文件的密钥。请指导我如何将生成的文件格式转换为Semafor示例文件格式。
答案 0 :(得分:0)
我相信Semafor可以用它需要的格式生成自己的conll文件。我们使用Stanford Core NLP将文档拆分为每行句子,然后使用Semafor本身生成conll文件。