我正在尝试使用gate进行文档分类。为此,我需要使用一种类型的注释来注释整个文档。谁能告诉我怎么做?
答案 0 :(得分:1)
通常我会将XML用于此目的。类似的东西:
<document class="class-1">
The text of you document 1 is here..
</document>
<document class="class-2">
The text of you document 2 is here..
</document>
然后将这些xml保存为单独的文件(或作为一个文档)。
在GATE应用程序中,您可以使用注释集转移PR并从&#34;原始标记&#34;移动注释。默认注释集。这是其中一个选项。其他选项取决于您拥有的数据格式。
答案 1 :(得分:0)
如果你的源文档是HTML或XML,那么原始标记集中已经存在一个涵盖所有内容的注释,否则最简单的选择是加载Groovy插件并使用带有单行的脚本PR脚本如
outputAS.add(doc.start(), doc.end(), "Document", Utils.featureMap())