如何对书写方式不同的单词进行分类

时间:2019-05-03 11:00:37

标签: r

例如,如果单词WAGONRI的书写方式不同, WGNRI,WGR,WAG,ABD-WGR1,我们如何对写成WAGONRI的单词进行分类

1 个答案:

答案 0 :(得分:1)

您可以使用stringdistance中的stringdist来确定字符串是否相似,然后使用合适的分界线。

stringdist::stringdist("WAGONRI",c("WGNRI","WGR","WAG","ABD-WGR1"))
[1] 2 4 4 7

如果每个单词用几种不同的方式写的话,对规则进行硬编码可能是最简单的。使用例如if_else

x <- c("WGNRI","WGR","WAG","ABD-WGR1")
if_else(WORD %in% x, "WAGONRI", Something else)