我们的网站允许用户以自由格式文本条目的形式进入他们所在的公司。 从历史上看,我们聚集了数百万个独特的条目。由于我们没有限制,我们最终会出现很多变化,错别字(例如麦当劳的1000多个不同的条目)
我们意识到只要我们能够将这些变体结合在一起,我们就可以为用户提供一个很棒的功能。我们使用各种在线资源[字典]
编制了一份干净的公司清单作为起点现在,我们正在尝试找出处理用户数据源的最佳方法。我们考虑过分配一些相似度得分: - 将每个条目与[Dictionary]进行比较,计算词汇距离(可能在Hadoop作业中) - 利用一些搜索数据库(例如Solr)
并关联用户以这种方式输入文字。
我们想知道的是,是否有人经历过类似的“分类”练习并可以分享任何提示?
谢谢, 彼得
答案 0 :(得分:1)
我使用简单的 Levenshtein距离(http://en.wikipedia.org/wiki/Levenshtein_distance)。
几百万个条目 - 您应该能够在一台计算机上轻松处理它(没有hadoop或其他重量级工具)。