如何对大量用户输入的公司名称进行分类?

时间:2013-11-22 10:00:19

标签: algorithm hadoop solr machine-learning classification

我们的网站允许用户以自由格式文本条目的形式进入他们所在的公司。 从历史上看,我们聚集了数百万个独特的条目。由于我们没有限制,我们最终会出现很多变化,错别字(例如麦当劳的1000多个不同的条目)

我们意识到只要我们能够将这些变体结合在一起,我们就可以为用户提供一个很棒的功能。我们使用各种在线资源[字典]

编制了一份干净的公司清单作为起点

现在,我们正在尝试找出处理用户数据源的最佳方法。我们考虑过分配一些相似度得分: - 将每个条目与[Dictionary]进行比较,计算词汇距离(可能在Hadoop作业中) - 利用一些搜索数据库(例如Solr)

并关联用户以这种方式输入文字。

我们想知道的是,是否有人经历过类似的“分类”练习并可以分享任何提示?

谢谢, 彼得

1 个答案:

答案 0 :(得分:1)

我使用简单的 Levenshtein距离http://en.wikipedia.org/wiki/Levenshtein_distance)。

几百万个条目 - 您应该能够在一台计算机上轻松处理它(没有hadoop或其他重量级工具)。