我有一个已经受过训练的Knowledge Studio模型正在运行。我已将其部署在“自然语言理解”服务中。 NLU提供的实体和关系并不总是很精确,因此我试图使最终用户能够纠正提取的信息中的错误并通过他的反馈来改进模型。
由于可以将已经受过训练的模型导出到WKS的新实例,因此其内容(句子,单词以及带注释的相关实体和关系)以易于理解的JSON格式进行结构化;我想知道是否可以采用相同的结构来标记新文档文本并将其上载到WKS以反映用户反馈,并希望改进模型。
答案 0 :(得分:0)
好吧,我通过尝试找到了答案。我从Knowledge Studio下载了语料库,并分析了每个文件(在文件夹“ ./gt”内部)的JSON结构。
在每个文件的末尾,每个以前带有注释的实体都有JSON条目,因此我以它们为例。对于每个条目,都有一个ID,其中一个ID代表句子编号,另一个ID代表提及的编号(两者都是连续的,从零开始)。所提到的数字会针对每个句子重新开始,每个句子之间都用“ \ n”和“。”(注意“。”之后的空格)分开(至少我可以注意到)。另外,每个条目在提及的开头和结尾都有一个字符号值。在计算字符时,系统不会考虑“ \”字符。这是一个看起来像的例子。
{
"id" : "s3-m0", //id for the first mention in the fourth sentence
"properties" : {
"SIRE_MENTION_TYPE" : "NONE",
"SIRE_MENTION_CLASS" : "SPC",
"SIRE_ENTITY_SUBTYPE" : "NONE",
"SIRE_MENTION_ROLE" : "TEST_ENTITY" // mention name
},
"type" : "TEST_ENTITY", // mention name again
"begin" : 11, // beginning of the mention
"end" : 19, // end of the mention
"inCoref" : false
}
如果要标记新提及(类型系统以前未包含),则必须首先手动创建它。 将此条目添加到每个JSON之后,将修改后的语料库上传到Knowledge Studio,并使用上传的文档创建注释集。然后,创建一个新任务来注释该新集合,您应该看到文档已经被注释了手动添加的条目。因此,在提交文档并接受任务之后,就可以使用这些新示例对模型进行训练了。我认为手动注释关系应该相似。
希望这对其他人有帮助!