从文档中提取和分类医疗代码的最佳方法?

时间:2019-04-03 18:27:35

标签: python regex data-science

我想解析医学文档并将其中的单词识别/分类为各种医学代码,例如HCPCS,ICD,CPT,APC等。我正在考虑这样做的最佳方法;我已经尝试过正则表达式,但是它们给了我很多误报(例如,HCPCS代码通常是5位数字或4位数字+ 1个字母),但这会增加10000 mg之类的东西,而其他代码不能只需检查4位数字,就很容易,因为在许多文档中,这需要几年的时间。

某些代码(例如HCPCS)格式正确,但其他代码(例如ICD)则格式不正确(M05.73,M05.732),因为它们的长度,小数位和格式可能有所不同(某些文档会说M05 .7x到M05.8x)

我也一直在考虑使用机器学习NLP方法,但是除了字长以外,我不确定我的功能会是什么。

有什么可行的方法呢?

编辑: 这是文档的摘录示例:

  

代码注释:以前,未列出的HCCCS代码C1889用于   代表此设备。但是,适当的HCPCS代码   描述的可吸收的鼻植入装置是C9749。医师   鼻内植入物的工作将与未列出的一起收费   CPT代码30999-未列出的程序,鼻子。一些提供商可能会使用CPT   30465,用于修复鼻前庭狭窄(例如,   吊具移植,鼻腔侧壁重建);然而   未列出的代码是适当的代码。代码编号说明CPT   30999未列出的程序,鼻子HCCCS C9749鼻前庭的修复   带植入物的侧壁狭窄起源日期:2018年11月   SUR209 | 8

预期输出-将检测到的代码映射到可能的代码类型:

C1889(可能的代码类型:HCPCS)

C9749(可能的代码类型:HCPCS)

30999(可能的代码类型:HCPCS)

30465(可能的代码类型:HCPCS)

1 个答案:

答案 0 :(得分:0)

cTAKES

Apache cTAKES是用于医学文本处理的NLP项目,该项目具有针对各种特定于医学领域的内容提取和实体识别的预训练模型。可能您需要的代码类型作为资源或作为实体标记模型的一部分包含在cTAKES中。