找出不同的CoNLL格式

时间:2017-12-12 06:33:14

标签: stanford-nlp

我正在尝试从Stanford Core NLP生成一个conll文件,然后可以将其用作Semafor的输入(因为semafor仅接受conll文件)。

生成的文件如下所示:

1   My  my  PRP$    O   2   nmod:poss
2   kitchen kitchen NN  O   5   nsubj
3   no  no  RB  O   4   neg
4   longer  longer  RB  O   5   advmod
5   smells  smell   VBZ O   0   ROOT
6   .   .   .   O   5   punct

当我使用此文件时,Semafor服务器返回illegalArgument异常,因为格式略有不同。他们的示例conll文件如下所示:

1   My  _   PRP$    PRP$    _   2   NMOD    _   _
2   kitchen _   NN  NN  _   5   SBJ _   _
3   no  _   RB  RB  _   5   ADV _   _
4   longer  _   RB  RB  _   3   AMOD    _   _
5   smells  _   VBZ VBZ _   0   ROOT    _   _
6   .   _   .   .   _   5   P   _   _

似乎我可以通过定义键来控制输出。默认键是ID,FORM,LEMMA,POSTAG,NER,HEAD,DEPREL。但是,我不知道Semafor提供的示例conll文件的密钥。请指导我如何将生成的文件格式转换为Semafor示例文件格式。

1 个答案:

答案 0 :(得分:0)

我相信Semafor可以用它需要的格式生成自己的conll文件。我们使用Stanford Core NLP将文档拆分为每行句子,然后使用Semafor本身生成conll文件。