如何规范公司名称

时间:2011-11-02 01:51:59

标签: ruby-on-rails mongodb fuzzy-comparison

我们有用户生成的雇主名称,各种变化。例如,人们输入或导入:

谷歌
谷歌公司 谷歌公司 谷歌公司

对数据库进行搜索,看起来像一个不同的公司。我们已经改变了一些东西,将每个雇主都映射到一个“标准化”名称,但总共有70,000个,这很难手工完成。

有没有人有关于如何规范现有条目的建议,以及如何维护我们为所有传入名称做的事情?

1 个答案:

答案 0 :(得分:3)

您可以做两件事来提供帮助:

  • 当用户添加公司名称时,请为他们提供一个自动填充框,以便他们获得建议(如果已存在)。或者,在添加问题时建议像stackoverflow这样的现有文件。

  • 在查询数据库时使用搜索工具,以便您可以汇总所有变体。您可以在https://www.ruby-toolbox.com/categories/rails_search

  • 找到搜索宝石

在事实变得简单或准确之后,我认为不会“正常化”它们。