在R中使用stringdist

时间:2015-12-14 10:00:31

标签: r stringdist

让我说我有以下的话:

word1 = 'john lennon'
word2 = 'john lenon'
word3 = 'lennon john'

几乎可以清楚地看出这3个字是对同一个人的侮辱。拥有以下代码:

library(stringdist)
>stringdist('john lennon','john lenon',method = 'jw')
[1] 0.06363636
>stringdist('john lennon','lennon john',method = 'qgram')
[1] 0
>stringdist('john lennon','lennon john',method = 'jw')
[1] 0.33
>stringdist('john lennon','john lenon',method = 'qgram')
[1] 1

很明显,在这个例子中qgram效果更好。但那只是那种情况。我的问题是如何将这两种方法结合起来?

jw会提供更好的结果,但无法抓住'反转的话(在我的情况下,姓氏姓氏与姓氏名称)。有什么建议吗?

3 个答案:

答案 0 :(得分:1)

你可以整合一个" if"当且仅当jw不等于0时才会运行qgram方法的语句。 if(stringdist(('john lennon','john lenon',method = 'qgram')!=0){stringdist('john lennon','john lenon',method = 'jw')}

答案 1 :(得分:0)

我有一个想法,计算上看起来很昂贵,但至少它给出了相当不错的结果。

word1 = 'john lennon'
word2 = 'john lenon'
word3 = 'lennon john'

首先删除空格:

word1b = gsub(' ','',word1)
word2b = gsub(' ','',word2)
word3b = gsub(' ','',word3)

按字母顺序排序:

word1c = paste(sort(unlist(strsplit(word1b, ""))), collapse = "")
word2c = paste(sort(unlist(strsplit(word2b, ""))), collapse = "")
word3c = paste(sort(unlist(strsplit(word3b, ""))), collapse = "")

最后使用jw方法:

stringdist(word1c,word2c,method = 'jw')
[1] 0.03333333
stringdist(word1c,word3c,method = 'jw')
[1] 0
stringdist(word2c,word3c,method = 'jw')
[1] 0.03333333

结果令人满意。 缺点:可能在小长度的单词中有非想要的结果。

答案 2 :(得分:-2)

我的建议是一个两级方案,你可以匹配单词上的单词和"句子"在"句子",可能只是尝试所有单词的组合。

由您决定是否允许删除空格(johnlennon)。