我想使用命名实体识别(NER)来识别文本中符合临床概念的单词或短语。
我有一个字典,其中包含诊断的描述及其标签代码。前两行的示例:
ICD10 ICD10Term
----------------
A00 Cholera
A000 Cholera due to Vibrio cholerae 01, biovar cholerae
首先,我想从与字典的直接匹配开始,但是我不确定该怎么做。我应该只搜索字典中是否包含某个字符串?还是应该使用包装或工具?
我发现了spacy-lookup
:https://github.com/mpuig/spacy-lookup
我不确定我将如何大规模使用此软件包,因为我有很多txt文件和字典。
此外,您还有其他推荐我的软件包\工具吗?
答案 0 :(得分:0)
您必须首先训练自己的NER模型才能做到这一点。
根据spaCy的要求准备数据集,然后训练模型。然后您的模型应该能够检测到实体。
答案 1 :(得分:0)
我会先使用spaCy https://spacy.io/api/cli#pretrain的pretrain
函数将语言模型更新到您的域。然后从头开始训练NER-https://spacy.io/usage/training#ner