我正在使用qdap
来拼写检查300,000页,然后得到5,000个最常见的拼写错误。
我使用了以下代码:
library(qdap)
Content <- as.vector(mydata$text2)
df <- check_spelling(Content, n.suggest = 0)
n_misspelled <- as.vector(table(factor(df$row, levels = Row)))
data.frame(Content, n_misspelled)
但它返回诸如“可持续性”,“软封面”,“居住权”或“自由职业者”之类的单词作为拼写错误,这是非常常见的正确拼写单词。
无论如何,我是否可以要求它使用完整的英语词典?还是放宽句子开头的大写字母要求之类的规则? 还有其他可以帮助进行拼写检查的软件包吗?
谢谢