如何在NLP中找到相似的名词短语?

时间:2018-10-27 20:10:18

标签: nlp text-classification synonym ner pattern-synonyms

有没有办法识别相似的名词短语。一些建议使用基于模式的方法,例如X as Y表达式:

  

Usain Bolt成为Sprint之王

     

利物浦为红色

1 个答案:

答案 0 :(得分:1)

有很多技术可以查找给定实体的替代名称, 使用以下模式:

  • X also known as Y
  • X also titled as Y

扫描大量文档(例如Wikipedia或新闻报纸文章)是一种方法。

还有其他选择,我记得其中一种是使用Wikipedia的内部链接结构,例如,通过研究文章之间的重定向链接。您可以从以下位置下载带有重定向列表的文件:https://wiki.dbpedia.org/Downloads2015-04,并浏览该文件,您可以找到实体的备用名称/同义词,例如:

  • Kennedy_Centre -> John_F._Kennedy_Center_for_the_Performing_Arts>
  • Lord_Alton_of_Liverpool -> David_Alton,_Baron_Alton_of_Liverpool
  • Indiana_jones_2 -> Indiana_Jones_and_the_Temple_of_Doom

您可以做的另一件事是结合这两种技术,例如,查找同时出现Indiana JonesIndiana_Jones_and_the_Temple_of_Doom并且相距不超过4个或5个标记的文本段。您可能会找到类似also titled as的模式,然后可以使用这些模式来查找更多的同义词/替代名称。