我正在使用转换为纯文本的html文档为TokenNameFinder创建训练集,但我的精度很低,我希望将HTML标记用作训练的一部分。像粗体中的单词和不同边距大小的句子。 OpenNLP会接受并使用这些标签来创建规则吗? 有没有其他方法可以利用这些标签来提高精度?
答案 0 :(得分:0)
使用HTML标记训练OpenNLP并不清楚您的意思。 列车输入是带注释的标记化句子:
<START:person> Pierre Vinken <END> , 61 years old , will join the board as a nonexecutive director Nov. 29 .
Mr . <START:person> Vinken <END> is chairman of <START:company> Elsevier N.V. <END> , the Dutch publishing group .
要使用标准工具训练OpenNLP模型,您需要注释遵循此约定。请注意,注释不符合XML标准。
您可以将注释直接嵌入到用于培训的HTML文档中。它甚至可以帮助分类器获得额外的上下文,但我从来没有读过关于它的任何实验结果。
您应该记住,训练数据应该被标记化。这意味着你应该在单词和标点符号之间以及文本元素和html之间包含空格:
<p> <i> Mr . <START:person> Vinken <END> </i> is chairman of <b> <START:company> Elsevier N.V. <END> </b>, the Dutch publishing group .