我正在使用R中aspell
个包的utils
函数拼写检查我的文字。此外,我正在尝试为Aspell检测到的错误单词提取正确的单词。但阿斯佩尔建议用一些不正确的词来表达令人反感的话。我不要那个。我如何阻止Aspell这样做?有没有办法只使用R从Aspell字典中删除某些单词?这就是我使用Aspell的方式。
spelling_mistakes <- aspell(file_location2,"Rd", control = c("--master=en_US"),
program = aspell_location)
incorrect_words_list <- spelling_mistakes[, 1]
correct_words_for_incorrect_words <- spelling_mistakes[, 5]
答案 0 :(得分:2)
怎么样:
badWords <- scan(url("http://www.bannedwordlist.com/lists/swearWords.txt"),
what=character(0))
## note that the 'bad' words include "job", and "hit" ...
clean_words <- setdiff(spelling_mistakes[,5],badWords)
你还没有给出一个可重复的例子,所以我还没有测试过这个......
请注意,这将不提供其他建议。但它会让你在那里中途。 aspell
的文档确实建议您可以使用其他词典,但您可以自己阅读... http://wordlist.aspell.net/other-dicts/
另见http://lists.gnu.org/archive/html/aspell-user/2007-07/msg00004.html