应用预训练模型的麦芽粉英语的错误

时间:2013-02-16 14:18:28

标签: forms parsing nlp text-parsing

我正在着手 maltparser 。我想申请提供的

预先训练好的模型 'engmalt.linear-1.7'来解析

命令行上的

英语句子。

我下载 engmalt 并从

更改了文件名

'engmalt.linear-1.7。 zip '到'engmalt.linear-1.7。 mco '。我

保存示例英语句子(在engmalt的下载页面上)

在'infile.conll'中

并在命令行上运行。

我无法得到结果,并且有一个奇怪的错误

  

标签'FORM'没有标签符号。

(顺便说一下,如果我测试'/ maltparser -

maltparser的

1.7.1 / examples / data / talbanken05_test.conll'

包,它可以令人惊讶地获得依赖! )

  • Q1:我应该更改'engmalt.linear'的文件扩展名吗?

  • Q2:为什么我可以使用engmalt来解析'talbanken05_test.conll'(不是

英语句子?)

  • 问题3:解析英语句子时为什么会出错?
  • 是什么?
是什么意思?

非常感谢!

1 个答案:

答案 0 :(得分:2)

这是一个老问题,我不确定OP是否还想要答案。您应该使用预先训练的模型的正确格式是十列格式,在此xml中定义:

<?xml version="1.0" encoding="UTF-8"?>
<dataformat name="conllx">
    <column name="ID" category="INPUT" type="INTEGER"/>
    <column name="FORM" category="INPUT" type="STRING"/>
    <column name="LEMMA" category="INPUT" type="STRING"/>
    <column name="CPOSTAG" category="INPUT" type="STRING"/>
    <column name="POSTAG" category="INPUT" type="STRING"/>
    <column name="FEATS" category="INPUT" type="STRING"/>
    <column name="HEAD" category="HEAD" type="INTEGER"/>
    <column name="DEPREL" category="DEPENDENCY_EDGE_LABEL" type="STRING"/>
    <column name="PHEAD" category="IGNORE" type="INTEGER" default="_"/>
    <column name="PDEPREL" category="IGNORE" type="STRING" default="_"/>

</dataformat>