GATE情绪分析如何运作?

时间:2014-10-01 07:45:07

标签: sentiment-analysis gate

我成功创建了一个情绪分析管道,如例子中所示:https://gate.ac.uk/sale/talks/gate-course-may10/track-3/module-11-ml-adv/module-11-sentiment.pdf 但现在我想使用不同的语料库:它是德语;我有两个包含带有正面或负面特征的德语短语的文件。我把它写成了一个像这样的.xml文件:

<?xml version='1.0' encoding='UTF-8' ?>
<GateDocument>
<GateDocumentFeatures>
<Feature>
  <Name className="java.lang.String">gate.SourceURL</Name>
  <Value className="java.lang.String">file:/C:/Users/user/Documents/text</Value>
</Feature>
<Feature>
  <Name className="java.lang.String">MimeType</Name>
  <Value className="java.lang.String">text/plain</Value>
</Feature>
</GateDocumentFeatures>

<TextWithNodes>
<Node id="0" />10:41 Uhr &apos; Ist aber ein schwacher Trost. 
<Node id="47" />1969 das Problem der Entsorgung offiziell angesprochen. 
<Node id="103" />
...
</TextWithNodes>

<AnnotationSet Name="Key">
<Annotation Id="0" Type="comment" StartNode="0" EndNode="47">
<Feature>
  <Name className="java.lang.String">rating</Name>
  <Value className="java.lang.Double">2.0</Value>
</Feature>
</Annotation>
...
</AnnotationSet>
</GateDocument>

但我不明白如何使用paum.xml:

1)在本教程的示例中,有一个String-rating-feature(例如“2_Star_Rating”)而不是Double,但我不知道paum.xml /管道是如何处理这个String-feature的 - 如何才能我告诉管道我现在有一个Double值可以使用吗?

2)当我在应用程序模式下运行批量学习PR时:文本语料库如何不得不喜欢?纯文本好吗?

在第一次试验中,我使用了教程中相同的paum.xml文件,并将我的评级从double(2.0)转换为Strings(“2_Star_Rating”) - 并且在训练和应用程序模式下没有出现错误 - 但是当我查看时我的文本文件(在app.mode上运行我的管道),没有设置注释。

2 个答案:

答案 0 :(得分:1)

为什么不使用简化的XML,如:

这是带有opinion1的评论1文本

这是带有opinion2的评论2文本

它可以是每个文件的注释或在一个文件中包含大量注释的文件。

然后您可以使用AnnotationSet Transfer PR并从&#34;原始标记中复制注释&#34;语料库填充后的默认设置。

答案 1 :(得分:0)

最后我发现了GATE的期望: 给定的文件(应进行分析)必须如下:

<?xml version='1.0' encoding='UTF-8' ?>
<GateDocument>
<GateDocumentFeatures>
<Feature>
  <Name className="java.lang.String">gate.SourceURL</Name>
  <Value className="java.lang.String">file:/C:/Users/user/Documents/text</Value>
</Feature>
<Feature>
  <Name className="java.lang.String">MimeType</Name>
  <Value className="java.lang.String">text/html</Value>
</Feature>
</GateDocumentFeatures>
<TextWithNodes>
<Node id="0" />sentence1
<Node id="9" />
...
</TextWithNodes>

<AnnotationSet Name="Key">
<Annotation Id="1" Type="comment" StartNode="0" EndNode="9">
</Annotation>
...
</AnnotationSet>
</GateDocument>