在r中发现潜在的重复(拼写错误)

时间:2012-07-05 10:58:01

标签: r duplicate-data

  

可能重复:
  R: How to measure similarity between strings?

我一直在研究大型数据集。我需要找到可能的重复 - 类似名称,如:

NewYork, new york, New York, Naw York, Niy Work 

因此,我认为以下规则有助于捕捉这种潜在的重复:

如果任何三个consiquitive字符匹配: 问题:然后它将检测到以下作为潜在的重复,实际上它们不是。     命运迟到的伴侣率 如果变得更加保守,我可能需要4个连续字符,那么我可能会遇到短字的问题。

是否有任何智能方法可以找到拼写错误类型?

考虑以下小例子:

myfruits <- c("Apple", "Apricot", "Avocado", "Banana", "Bilberry", 
"Blackberry", "Blackcurrant",    "Blueberry", "Currant", 
"Cherry", "Cherimoya", "Clementine", "Aple", "Binana", "BlaCkbarry",
"pricot")

Speller错误,但实际上是上面列表中的重复:

 "Apple" & "Aple",
"Banana" &  "Binana", 
"Blackberry" & "BlaCkbarry", 
"Apricot" &  "pricot"

0 个答案:

没有答案