我正在着手 maltparser 。我想申请提供的
预先训练好的模型 'engmalt.linear-1.7'来解析
命令行上的英语句子。
我下载 engmalt 并从
更改了文件名'engmalt.linear-1.7。 zip '到'engmalt.linear-1.7。 mco '。我
保存示例英语句子(在engmalt的下载页面上)
在'infile.conll'中并在命令行上运行。
我无法得到结果,并且有一个奇怪的错误:
标签'FORM'没有标签符号。
(顺便说一下,如果我测试'/ maltparser -
maltparser的1.7.1 / examples / data / talbanken05_test.conll'
包,它可以令人惊讶地获得依赖! )
Q1:我应该更改'engmalt.linear'的文件扩展名吗?
Q2:为什么我可以使用engmalt来解析'talbanken05_test.conll'(不是
英语句子?)
非常感谢!
答案 0 :(得分:2)
这是一个老问题,我不确定OP是否还想要答案。您应该使用预先训练的模型的正确格式是十列格式,在此xml中定义:
<?xml version="1.0" encoding="UTF-8"?>
<dataformat name="conllx">
<column name="ID" category="INPUT" type="INTEGER"/>
<column name="FORM" category="INPUT" type="STRING"/>
<column name="LEMMA" category="INPUT" type="STRING"/>
<column name="CPOSTAG" category="INPUT" type="STRING"/>
<column name="POSTAG" category="INPUT" type="STRING"/>
<column name="FEATS" category="INPUT" type="STRING"/>
<column name="HEAD" category="HEAD" type="INTEGER"/>
<column name="DEPREL" category="DEPENDENCY_EDGE_LABEL" type="STRING"/>
<column name="PHEAD" category="IGNORE" type="INTEGER" default="_"/>
<column name="PDEPREL" category="IGNORE" type="STRING" default="_"/>
</dataformat>