我正在尝试将非标准医疗诊断描述与ICD10参考表描述相匹配以获取ICD10代码。将是模糊匹配。例如,
我想匹配"瞬态缺血攻击"到"短暂性脑缺血发作,未指明" (ICD10代码G45.9)。或者"难以忍受的NAUSEA,VOMITING"呕吐恶心,未指明" (ICD10代码R11.2)。
使用R或python进行此类模糊匹配的最佳方法是什么?
我在R中查看了stringdist包中的各种'字符串距离'措施好坏参半。我也在考虑单词技巧,但在我的情况下使用它时我不知道如何使用它。因为我比较小字符串而不是文本文档。
由于
答案 0 :(得分:0)
我通过搜索fuzzy match Python
找到了fuzzywuzzy。我没有使用它的经验,但似乎它可能会这样做。
"像老板一样模糊字符串匹配。它使用Levenshtein Distance来帮助计算简单使用包中序列之间的差异。"
您的问题类似于this one,其答案可能与您的问题有关。具体而言,评分匹配强度的概念将是有用的。
stackoverflow(fuzzy-comparison
)上还有一个标记可能会产生更多线索。