我有很多来自不同来源的文件。他们中的许多人都引用了公司名称,但可能存储的信息略有不同。名称是文档中的字段。
我希望能够检测到相同名称的变体,例如:
MarkLogic是否有任何设施来查询具有类似"类似的文件?名字如上?我不确定我是否应该寻找更具技术性的术语。优选地用于节点客户端API或服务器端js。
答案 0 :(得分:2)
您可以尝试或组合使用多种选项:
owl:sameAs
三元组的语义,或者您可以使用MarkLogic thsr library。spell:double-metaphone
,并在搜索字词上使用在这种情况下,搜索字词扩展听起来最为直截了当,特别是因为您所说的仅仅是拼写“公司”和“公司”等术语的差异。
HTH!