包装中的自定义单词' qdap'在R

时间:2016-11-28 15:15:40

标签: r text-mining qdap

我在R中使用qdap包进行拼写检查。我运行下面的代码并提供这样的输出

which_misspelled("I use a 50Gb broadband connection") 

> 4           5 
>"gb" "broadband"

这些词语有意义,但对这些词语的更正是无关紧要的。有没有选项我们可以为这个功能提供我们的自定义词汇列表以便不过滤?

1 个答案:

答案 0 :(得分:3)

函数which_misspelled()包含参数dictionary =,默认为qdapDictionaries::GradyAugmented。如果您输入的单词不存在,则会将其视为拼写错误

如果您希望将单词"gb"识别为正确的拼写,则应定义新的dictionary

library(qdap)
dict <- c(qdapDictionaries::GradyAugmented, "gb")
which_misspelled("I use a 50Gb broadband connection", dictionary = dict)
#          5 
#"broadband"