模糊匹配参考表

时间:2016-04-28 18:15:04

标签: python r

我正在尝试将非标准医疗诊断描述与ICD10参考表描述相匹配以获取ICD10代码。将是模糊匹配。例如,

我想匹配"瞬态缺血攻击"到"短暂性脑缺血发作,未指明" (ICD10代码G45.9)。或者"难以忍受的NAUSEA,VOMITING"呕吐恶心,未指明" (ICD10代码R11.2)。

使用R或python进行此类模糊匹配的最佳方法是什么?

我在R中查看了stringdist包中的各种'字符串距离'措施好坏参半。我也在考虑单词技巧,但在我的情况下使用它时我不知道如何使用它。因为我比较小字符串而不是文本文档。

由于

1 个答案:

答案 0 :(得分:0)

我通过搜索fuzzy match Python找到了fuzzywuzzy。我没有使用它的经验,但似乎它可能会这样做。

"像老板一样模糊字符串匹配。它使用Levenshtein Distance来帮助计算简单使用包中序列之间的差异。"

fuzzywuzzy on github

您的问题类似于this one,其答案可能与您的问题有关。具体而言,评分匹配强度的概念将是有用的。

stackoverflow(fuzzy-comparison)上还有一个标记可能会产生更多线索。