我的部门处理来自各种公司内部资源的数据的收集和显示,以用于数据挖掘/公司仪表板。
我们面临的一个重大挑战是跨各个部门交叉引用位置名称。我们是一个相当大的组织,有不同兴趣的部门为任何一个地点做自己的报告。通常,在这些部门的报告中,位置名称具有的EXACT名称存在很多差异。例如,位置可以被称为:
所以我的问题是在我们自己的数据库和代码中协调这些名称时存在哪些最佳实践?让我们假设我的部门目前没有能力在一个共同的层次结构标准下统一组织(这将是最佳解决方案)。目前我们的做法是维护不断增长的位置名称参考表,然后将其引用回我们自己的命名标准。这使我们能够保持与数据的历史一致性。
在交叉引用位置时实施某种“模糊搜索”是否可行/可取?例如,某些东西可能会忽略像“the”这样的单词的实例,或者平等对待“cafe”和“restaurant”(基于一些预先定义的逻辑)。
我当然不认为我们能够在算法上考虑到我们遇到的所有随机命名约定,但它是否足以能够解释其中的一些/大多数?
答案 0 :(得分:1)
关键字为data-integration。重新标记。模糊搜索在information-retrieval中很常见,在这里绝对有用。但是你给出的例子对于自动集成来说可能有点太难了,你需要用户干预和正确的data-cleaning。
我已成功使用模糊匹配重新导入音乐播放列表。即使是从互联网上。标题和艺术家通常提供足够的数据来对我的音乐收藏进行相当可靠的模糊匹配(至少如果我有这首歌的话)。
然而,如果您只有一个单词,那么模糊匹配将不可靠,就像在您的“神话般的餐厅”示例中一样。
良好的模糊匹配将使用词干并具有常见词和同义词的概念。所以“餐厅”和“咖啡馆”可能不会被认为是重要的。关键是要有足够的数据。单个单词可能不足以识别位置。