例如,如果单词WAGONRI的书写方式不同, WGNRI,WGR,WAG,ABD-WGR1,我们如何对写成WAGONRI的单词进行分类
答案 0 :(得分:1)
您可以使用stringdistance
中的stringdist
来确定字符串是否相似,然后使用合适的分界线。
stringdist::stringdist("WAGONRI",c("WGNRI","WGR","WAG","ABD-WGR1"))
[1] 2 4 4 7
如果每个单词用几种不同的方式写的话,对规则进行硬编码可能是最简单的。使用例如if_else
x <- c("WGNRI","WGR","WAG","ABD-WGR1")
if_else(WORD %in% x, "WAGONRI", Something else)