我创建了一个自定义命名实体识别(NER)分类器和一个自定义关系提取(RE)分类器。在RE的训练数据中,我给了它一组10个句子,其中我给出了确切的实体和它们之间的关系。
当我运行代码时,我正在获得10个句子中的6个的正确关系。但是,我没有在所有句子中得到正确的关系。我想理解为什么RE代码无法识别句子中的正确关系,即使我在训练数据中给出了完全相同的句子?
例如,以下句子:
该基金的目标是帮助我们的会员尽可能做到最好 RetOue。
在训练数据中,给出的关系是
资金RetOue构建
以下是句子中发现的所有关系,可以看出“基金”和“RetOut”之间的关系是_NR,其概率为(_NR,0.6074190677382846)和实际关系(build,0.26265263651796966) )概率较低。下面列表中的第二个:
RelationMention [type=_NR, start=1, end=9, {_NR, 0.8706606065870188; build, 0.04609463244214589; reply, 0.014127678851794745; cause, 0.01412618987143006; deliver, 0.014028667880335159; calculate, 0.014026673364224201; change, 0.013888249765034161; collaborate, 0.01304730123801706}
EntityMention [type=RESOURCE, objectId=EntityMention-10, hstart=1, hend=2, estart=1, eend=2, headPosition=1, value="Fund", corefID=-1]
EntityMention [type=ROLE, objectId=EntityMention-11, hstart=8, hend=9, estart=8, eend=9, headPosition=8, value="members", corefID=-1]
]
RelationMention [type=_NR, start=1, end=14, {_NR, 0.6074190677382846; build, 0.26265263651796966; collaborate, 0.029635339573025835; reply, 0.020273680468829585; cause, 0.020270355199687763; change, 0.020143296854960534; calculate, 0.019807048865472295; deliver, 0.01979857478176975}
EntityMention [type=RESOURCE, objectId=EntityMention-10, hstart=1, hend=2, estart=1, eend=2, headPosition=1, value="Fund", corefID=-1]
EntityMention [type=RESOURCE, objectId=EntityMention-12, hstart=13, hend=14, estart=13, eend=14, headPosition=13, value="RetOue", corefID=-1]
]
RelationMention [type=_NR, start=1, end=9, {_NR, 0.9088620248226259; build, 0.029826907381364745; cause, 0.01048834533846858; reply, 0.010472406713467062; change, 0.010430417119225247; deliver, 0.010107963031033371; calculate, 0.010090071219976819; collaborate, 0.009721864373838134}
EntityMention [type=ROLE, objectId=EntityMention-11, hstart=8, hend=9, estart=8, eend=9, headPosition=8, value="members", corefID=-1]
EntityMention [type=RESOURCE, objectId=EntityMention-10, hstart=1, hend=2, estart=1, eend=2, headPosition=1, value="Fund", corefID=-1]
]
RelationMention [type=_NR, start=8, end=14, {_NR, 0.6412212367693484; build, 0.0795874107991397; deliver, 0.061375929752833555; calculate, 0.061195561682179045; cause, 0.03964100603702037; reply, 0.039577811103586304; change, 0.03870906323316812; collaborate, 0.038691980622724644}
EntityMention [type=ROLE, objectId=EntityMention-11, hstart=8, hend=9, estart=8, eend=9, headPosition=8, value="members", corefID=-1]
EntityMention [type=RESOURCE, objectId=EntityMention-12, hstart=13, hend=14, estart=13, eend=14, headPosition=13, value="RetOue", corefID=-1]
]
RelationMention [type=_NR, start=1, end=14, {_NR, 0.8650327055005457; build, 0.05264799740623545; collaborate, 0.01878896136615606; reply, 0.012762167223115933; cause, 0.01276049397449083; calculate, 0.012671777715382195; change, 0.012668721250994311; deliver, 0.012667175563079464}
EntityMention [type=RESOURCE, objectId=EntityMention-12, hstart=13, hend=14, estart=13, eend=14, headPosition=13, value="RetOue", corefID=-1]
EntityMention [type=RESOURCE, objectId=EntityMention-10, hstart=1, hend=2, estart=1, eend=2, headPosition=1, value="Fund", corefID=-1]
]
RelationMention [type=_NR, start=8, end=14, {_NR, 0.8687007489440899; cause, 0.019732766828364688; reply, 0.0197319383076219; change, 0.019585387681083893; collaborate, 0.019321463597270272; deliver, 0.018836262558606865; calculate, 0.018763499991179922; build, 0.015327932091782685}
EntityMention [type=RESOURCE, objectId=EntityMention-12, hstart=13, hend=14, estart=13, eend=14, headPosition=13, value="RetOue", corefID=-1]
EntityMention [type=ROLE, objectId=EntityMention-11, hstart=8, hend=9, estart=8, eend=9, headPosition=8, value="members", corefID=-1]
]
我想了解我应该注意的原因。
Q.1我的假设是,正确识别实体类型将有助于准确识别关系。这是对的吗?
Q.2如何改进我的训练数据,以确保我得到准确的关系?
Q.3我定义的每种实体类型的记录数量是否重要?我应该为每种关系类型保持相同数量的定义吗?例如:在我的训练数据中,如果我有10个关系“构建”的例子,那么我应该为每个其他关系类型定义10个关系,以及“原因”,“回复”等等吗?
Q.4我的假设是,实体的正确NER分类会对关系提取产生影响。这是对的吗?
答案 0 :(得分:1)
您认为良好的NER信息有用的假设是正确的,但您可能需要超过10个培训示例。你应该更多地考虑成千上万的例子,最好是数十/数十万个例子。
但是,你应该记住训练集。你的训练样例是什么?您使用的是默认功能吗?
答案 1 :(得分:0)
RE可以使用许多功能来提高关系分类的准确性,需要对其进行详细分析。
我的问题的答案: A.1。是的,准确识别实体类型将有助于准确识别关系。 A2。据我所知,培训数据需要手动注释和改进。 A.3。据我所知,是实体之间定义的记录数量很重要。 A.4。 NER精度会影响RE精度。