这是我在StackOverflow上的第一篇文章,如果我违反任何规则,我会道歉。
我正在使用R包qdap
进行拼写检查非常混乱的医疗记录文本。这项工作的目标是识别药物副作用的拼写错误,以便建立一个副作用拼写错误字典。我正在使用的文本包含许多拼写错误,缩写和其他使得简单的拼写检查困难的内容。在我的小医生笔记上进行拼写检查后,我通过拼写检查程序将数百个单词返回给我。这使我很难搜索我关心的副作用拼写错误。
我尝试使用以下代码创建仅包含正确拼写副作用的字典,以便qdap
将触发严重拼写错误的单词属于此字典。问题是,通过这种方式,文本中几乎每个单词,正确或不正确拼写都不会返回不正确(即#34;值得注意的"拼写错误,并且"恶心"建议替换为我的字典)。
dictionary <- readLines("dictionary.txt")
check_spelling(text$NOTE_TEXT[3379],range = 0, dictionary = dictionary,
assume.first.correct=FALSE)
这里的术语&#34;字典&#34;是我自建的副作用字典,check_spelling
正在csv文件中包含的文本上运行。是否有任何方法可以省略与我的字典中包含的单词相差很远的单词出现在拼写检查功能中(例如我之前的示例)?通过这种方式,我可以减少我在spell_check输出中看到的单词数量,并仅识别拼写错误的副作用。
作为一个小注释,将assume.first.correct
更改为TRUE
不会改变任何内容,因为字典不会以此方式运行。