MarkLogic - 检测相似/重复的名称

时间:2017-07-14 02:27:12

标签: marklogic

我有很多来自不同来源的文件。他们中的许多人都引用了公司名称,但可能存储的信息略有不同。名称是文档中的字段。

我希望能够检测到相同名称的变体,例如:

  • Ajax Company Incorporated
  • Ajax Co. Inc.
  • Ajax Company Inc。
  • Ajax Company
  • Ajax公司(前身为Ajax Unlimited)

MarkLogic是否有任何设施来查询具有类似"类似的文件?名字如上?我不确定我是否应该寻找更具技术性的术语。优选地用于节点客户端API或服务器端js。

1 个答案:

答案 0 :(得分:2)

您可以尝试或组合使用多种选项:

  • 使用同义词库扩展将搜索其中一个术语扩展到其他任何术语。您可以将语义用于使用owl:sameAs三元组的语义,或者您可以使用MarkLogic thsr library
  • 使用上述词库或本体中的反向查找在摄取时标准化您的数据。您可以标记找到的匹配项,并将标准化名称添加为标准化术语搜索的属性。您可以采用相同的方式规范化搜索条件。
  • 在摄取名称中的每个标记上使用spell:double-metaphone,并在搜索字词上使用enter image description here进行搜索,而不是使用真实姓名进行搜索。

在这种情况下,搜索字词扩展听起来最为直截了当,特别是因为您所说的仅仅是拼写“公司”和“公司”等术语的差异。

HTH!