Question

我正在使用转换为纯文本的html文档为TokenNameFinder创建训练集，但我的精度很低，我希望将HTML标记用作训练的一部分。像粗体中的单词和不同边距大小的句子。 OpenNLP会接受并使用这些标签来创建规则吗？有没有其他方法可以利用这些标签来提高精度？

Answer 1

使用HTML标记训练OpenNLP并不清楚您的意思。列车输入是带注释的标记化句子：

<START:person> Pierre Vinken <END> , 61 years old , will join the board as a nonexecutive director Nov. 29 .
Mr . <START:person> Vinken <END> is chairman of <START:company> Elsevier N.V. <END> , the Dutch publishing group .

要使用标准工具训练OpenNLP模型，您需要注释遵循此约定。请注意，注释不符合XML标准。

您可以将注释直接嵌入到用于培训的HTML文档中。它甚至可以帮助分类器获得额外的上下文，但我从来没有读过关于它的任何实验结果。

您应该记住，训练数据应该被标记化。这意味着你应该在单词和标点符号之间以及文本元素和html之间包含空格：

<p> <i> Mr . <START:person> Vinken <END> </i> is chairman of <b> <START:company> Elsevier N.V. <END> </b>, the Dutch publishing group .

OpenNLP可以使用HTML标签作为培训的一部分吗？

1 个答案: