我正在使用Spacy 1.8.0和Python,我想使用Spacy对医疗文档进行分析。有一种方法可以向spacy的命名实体识别器添加新的实体类型。但是,是否有可能将药物/药物的名称作为专有名词添加到spcay的词汇中?或者是否需要通过培训spacy NER来添加它们? 感谢
答案 0 :(得分:2)
我不确定你想要做什么......但下面是几种可能性的解决方案。
您有一份感兴趣的药物/药物的完整清单......
我。 并且您需要一个特殊规则来对这些字符串进行标记:不推荐这种方法,但原则上您可以在Tokenizer中添加特殊情况。
II。 ,您只是想找到它们:然后您应该在创建Doc后使用Matcher有效地找到它们。然后你可以用你找到的跨度做你想做的事。如果你愿意,可以用它们代词。
您没有完整的感兴趣的药物/药物清单......
我。 但您希望通常识别它们:然后您需要训练NER模型来识别它们。为了生成训练数据,你可以拿一大堆文件,并使用匹配器寻找已知的药物/药物来获取一大堆例句。然后你训练......
稍后编辑:为了清楚起见,Vocab只存储字符串并为它们分配一个唯一的ID以便在引擎盖下工作。这是Tagger决定它是否是PRON。