spacy将conllul转换为spacy json格式

时间:2018-11-15 11:54:29

标签: nlp spacy

我从普遍依赖关系中获取数据,我主要在印度尼西亚语(bahasa)工作,所以我克隆了仓库:

两个仓库都包含bz2文件,解压缩后,我得到了包含的文件。那里的所有内容都是conllul格式。所以我尝试使用命令

将其转换为spacy的json格式

python -m spacy convert thefile.conllul .

但是,spacy投掷错误消息:

Unknown format Can't find converter for conllul

如何进行转换? conllulconll格式是同一回事吗?如果没有,如何将conllul转换为conll格式?提前谢谢

1 个答案:

答案 0 :(得分:0)

好,在回答您的问题之前,让我们先澄清一下。

以下陈述是正确的:

  • 有不同的ConNLL格式
  • 不同格式的共同点是它们来自CoNLL会议。
  • Spacy通过其CLI提供了两种不同格式的转换器:简单conll格式和最新conllu格式。您可以找到有关conll格式here的更多信息以及有关conllu格式here
  • 的更多信息
  • Conllul是一种不同的数据格式,于2018年推出。您可以阅读更多here
  • Spacy不支持conllul和json格式之间的直接转换。

考虑到所有这些,我想您的问题的答案将是为您的语言使用conllu格式,这是使用自然语言处理带有杂凑的标准方法。我发现您的语言在ud treebank集合中有格式的数据。您可以从here下载数据,然后使用spacy转换器将其转换为json。

我真的希望能有所帮助。 :)