命名实体识别-与字典直接匹配

时间:2019-06-27 11:35:49

标签: python spacy ner

我想使用命名实体识别(NER)来识别文本中符合临床概念的单词或短语。

我有一个字典,其中包含诊断的描述及其标签代码。前两行的示例:

ICD10  ICD10Term
----------------
A00    Cholera
A000   Cholera due to Vibrio cholerae 01, biovar cholerae

首先,我想从与字典的直接匹配开始,但是我不确定该怎么做。我应该只搜索字典中是否包含某个字符串?还是应该使用包装或工具?

我发现了spacy-lookuphttps://github.com/mpuig/spacy-lookup

我不确定我将如何大规模使用此软件包,因为我有很多txt文件和字典。

此外,您还有其他推荐我的软件包\工具吗?

2 个答案:

答案 0 :(得分:0)

您必须首先训练自己的NER模型才能做到这一点。

根据spaCy的要求准备数据集,然后训练模型。然后您的模型应该能够检测到实体。

答案 1 :(得分:0)

我会先使用spaCy https://spacy.io/api/cli#pretrainpretrain函数将语言模型更新到您的域。然后从头开始训练NER-https://spacy.io/usage/training#ner