我需要从非结构化文本中提取简单的三元组。通常它是名词 - 动词 - 名词的形式,所以我尝试了POS标记,然后从邻域中提取名词和动词。 然而,它会导致很多情况并且准确性低。 句法/语义解析会在这种情况下有所帮助吗?
基于本体的信息提取会更有用吗?
答案 0 :(得分:1)
我希望语法分析最适合您的场景。一些带有POS标签的简单模板匹配方法可能会起作用,您可以在其中找到单个名词前后的动词,并将前者作为主语,后者作为对象。然而,听起来你已经尝试过类似的东西 - 除非你的邻居提取忽略了单词顺序(这有点傻 - 你猜测哪个名词是哪个单词,哪个是对象,并且假设每个句子中只有两个名词)。
由于您正在寻找{s,v,o}三胞胎,因此您很可能不需要语义或本体信息。如果你想要更多的信息,例如,代理 - 患者关系或更深层次的知识提取。
{s,v,o}是一种浅层的句法信息,并且鉴于语法分析比语义分析更加健壮和可访问,这可能是您最好的选择。句法分析对简单的单词重新排序很敏感,例如: "汉堡被约翰吃掉了。" => {John,eat,hamburger};你也能够专门处理不及物动词和双动词动词,这可能是一个更天真的方法的问题。