疾病命名实体识别

时间:2012-09-25 08:15:06

标签: machine-learning nlp medical named-entity-recognition

我有一堆描述疾病的文字文件。这些文件在大多数情况下都很短,通常只包含一个句子。这里给出一个例子:

  

原发性肺动脉高压是一种进行性疾病,其中最小的肺动脉广泛闭塞导致肺血管阻力增加,随后导致右心室衰竭。

我需要的是一种工具,可以在句子中查找所有疾病术语(例如"肺动脉高压"在这种情况下),并将它们映射到受控词汇,如MeSH

提前感谢您的回答!

5 个答案:

答案 0 :(得分:6)

以下是专门为医疗文档解析设计的两个管道:

两者都使用统一的医学语言系统UMLS,因此要求您拥有(免费)许可证。两者都是Java,或多或少易于设置。

答案 1 :(得分:2)

请参阅http://www.ebi.ac.uk/webservices/whatizit/info.jsf

  

Whatizit是一个文本处理系统,允许您进行文本处理   文本上的任务。任务由drop中的管道定义   上面窗口的下拉列表和文本可以粘贴在文本中   区域。

您也可以询问生物标签:http://www.biostars.org/show/questions/

答案 2 :(得分:2)

有很多工具可以做到这一点。一些受欢迎的:

他们中的大多数都带有一些预定义的模型,即他们已经接受过一些常规数据集(新闻文章等)的培训。但是,您的文本非常具体,因此您可能希望首先构建一个语料库并重新训练其中一个工具,以便根据您的数据进行调整。

更简单地说,作为第一个测试,您可以尝试基于字典的方法:设计实体名称列表,并执行一些精确或近似匹配。例如,此操作在LingPipe's tutorial中描述。

答案 3 :(得分:0)

Open Targets a module for this已成为LINK的一部分。它并不意味着直接使用,因此它可能需要一些黑客和修补,但它是我发现的最完整的医疗NER(命名实体识别)工具。有关详细信息,请阅读他们的blog post

答案 4 :(得分:0)

一个bash脚本,例如一个由疾病本体生成的词典: https://github.com/lasigeBioTM/MER