Ruby的数据质量

时间:2013-12-20 13:54:30

标签: ruby data-quality

我正在寻找任何可以帮助匹配两个单词拼写错误的库。例如,gem应该将以下语句标记为true(这只是一个示例,不需要扩展标准字符串)

'Start' == 'Strat'
'woodpecker' == 'Wodpekcer'

用于数据质量检查的任何红宝石?

2 个答案:

答案 0 :(得分:2)

如你所说,你正在寻找图书馆/宝石,这里有一些实现字符串距离和模糊匹配的宝石:

库不扩展核心类,因此您无法使用==运算符比较字符串,但您可以计算它们的相似性并找到类似的字符串。

对于Soundex,Metaphone等,您可以使用精彩的text gem。它可能更多涉及使用语音算法,因为根据语言,它们可能更好或更差。对英语有效的方法可能不适用于其他语言。

答案 1 :(得分:0)

你知道Levenshtein吗?

https://github.com/anjlab/rubyfish只是您可以安装的一个宝石