NLP - 如何识别2个文本是否引用相似的对象

时间:2017-11-16 14:13:08

标签: nlp semantics similarity sentence-similarity

我在这里寻找一些一般指导。

  

高级用例是我收到一些产品文档   我需要从中提取一些信息并进行处理。之前   这样做,我需要验证文档实际上是在引用   到正确的产品。为此我需要验证产品   从文件标题/描述反对我所知道的正确。

所以我有2个文本

  1. 文本1 - 这是指从某个文档中提取的产品信息
  2. 文字2 - 这是我可以使用的实际产品标题/说明,可以认为是正确的。
  3. 我需要确认两个文本都引用相同的产品或对象。

    示例:

    Text 1 (to be validated) - Optimus Prime Costume, Blue, with good packaging and warranty
    Text 2 (correct info) - Optimus Prime Blue Costume, Medium Size`
    

    你知道,我需要验证两个文本都引用Optimus Prime Costume

    我尝试了以下方法 -

    • Cosine Similarity
    • TF-IDF相似性
    • 字符串之间的重叠字

    但问题在于它们取决于整个文本而不是文本中提到的主要对象。

    我在考虑处理如下: -

    • 从文本中删除颜色,大小信息等2.文本2非常简洁,不包含随机数据。它包含产品名称和尺寸,颜色信息。
    • 验证文本2中的其余元素是否存在于文本1中,或者至少其中大部分是。

    我不太确定可能会有哪些不同的NLP技术,这比这种方法更好,所以任何建议都会受到赞赏。

1 个答案:

答案 0 :(得分:0)

根据您的目标,这可能是中等硬度或非常难。

您可以使用以下几种方法:

NER肯定会有所帮助: enter image description here

Wikifier也很有用:http://cogcomp.org/page/demo_view/Wikifier

还有语义角色标签。在此处查看更多注释:http://nlp.cogcomp.org/

很难从一个单一的例子判断出什么是确切的算法,但是如果你有更多的例子可能更容易提出更好的形式化。

可以在已经使用的内容中找到它的扩展 in this work.