GATE机器学习问题

时间:2015-06-29 17:37:52

标签: xml machine-learning annotations schema gate

我一直在使用gate.ac.uk GUI来发送数据,现在我正在尝试使用它的机器学习模块。为了做到这一点,我已经创建了几个xml架构来加载到GATE。这是一个例子:

<?xml version="1.0"?>
<schema xmlns="http://www.w3.org/2000/10/XMLSchema">
  <!-- XSchema definition for Condition -->
  <element name="Condition">
    <complexType>
      <attribute name="attrb_ConditionStatus" use="optional" value="other">
        <simpleType>
          <restriction base="string">
          <enumeration value="value_condition"/>
            </restriction>
          </simpleType>
      </attribute>
    </complexType>
  </element>
</schema>

我为每个要注释的属性创建了一个类似的架构。我将在创建模式后说明我实现的步骤: 1.我加载了#Schema Annotation Editor&#39;出于这些目的,然后通过“语言资源”加载自定义模式。菜单项。 我还加载了文件和语料库。 然后我跑了安妮 4.我可以在文档的“注释”选项卡中看到自定义架构 5.我使用自定义注释注释术语

现在我想通过学习 - 批量学习PR&#39;来运行机器学习。插入。我已将处理资源添加到我的应用程序管道中。 我的问题是关于机器学习配置文件/模式的创建,我已经搜索了互联网,但无法很好地了解如何正确创建模式。我看过各种例子,这是我的尝试:

<?xml version="1.0"?>
<ML-CONFIG>
  <VERBOSITY level="1"/>
  <SURROUND value="true"/>
  <PARAMETER name="thresholdProbabilityEntity" value="0.2"/>
  <PARAMETER name="thresholdProbabilityBoundary" value="0.4"/>
  <multiClassification2Binary method="one-vs-others"/>
  <EVALUATION method="holdout" ratio="0.66"/>
  <ENGINE nickname="PAUM" implementationName="PAUM"
        options="-p 50 -n 5 -optB 0.3"/>
  <DATASET>
    <INSTANCE-TYPE>Token</INSTANCE-TYPE>
    <ATTRIBUTELIST>
       <NAME>ManType</NAME>
       <SEMTYPE>NOMINAL</SEMTYPE>
       <TYPE>Manufactuer</TYPE>
       <FEATURE>category</FEATURE>
       <RANGE from="-2" to="2"/>
    </ATTRIBUTELIST>
    <ATTRIBUTELIST>
       <NAME>ModelType</NAME>
       <SEMTYPE>NOMINAL</SEMTYPE>
       <TYPE>Model</TYPE>
       <FEATURE>orth</FEATURE>
       <RANGE from="-2" to="2"/>
    </ATTRIBUTELIST>
     <ATTRIBUTE>
       <NAME>Class1</NAME>
       <SEMTYPE>NOMINAL</SEMTYPE>
       <TYPE>Manufacturer</TYPE>
       <FEATURE>majorType</FEATURE>
       <POSITION>0</POSITION>
     </ATTRIBUTE>
     <ATTRIBUTE>
       <NAME>Class2</NAME>
       <SEMTYPE>NOMINAL</SEMTYPE>
       <TYPE>Model</TYPE>
       <FEATURE>type</FEATURE>
       <POSITION>0</POSITION>
       <CLASS/>
     </ATTRIBUTE>
   </DATASET>
</ML-CONFIG>

我希望机器学习算法学习注释制造商和模型(类型),这也是我通过模式创建的自定义注释。 我的第一个问题是ml配置结构是否正确? 我添加了一个新的Corpus pipelin,添加Batch Learning PR流程,选择&#39; Evaluation&#39;模式然后我在我的培训文档上运行应用程序。这是输出:

The number of threads used is 1
** Evaluation mode started:
Hold-out test: runs=1, ratio of training docs is 0.66
Split, k=1, trainingNum=0.
HOLDOUT Fold 0:   (correct, partialCorrect, spurious, missing)= (0.0, 0.0, 0.0, 0.0);  (precision, recall, F1)= (0.0, 0.0, 0.0);  Lenient: (0.0, 0.0, 0.0)

  *** Averaged results for each label over 1 runs as:

Results of single label:

Overall results as:
  (correct, partialCorrect, spurious, missing)= (0.0, 0.0, 0.0, 0.0);  (precision, recall, F1)= (0.0, 0.0, 0.0);  Lenient: (0.0, 0.0, 0.0)

This learning session finished!

输出表明未正确配置某些内容 - ml配置文件或我为此目的创建的管道线。如果有人可以就此事分享一些见解,我将不胜感激。 再次,我搜索了互联网的高低,阅读了几本手册,并通过gate.ac.uk了解机器学习,但对我来说似乎仍然很模糊。

此致 Ofer

0 个答案:

没有答案