身份证明文件中的命名实体识别

时间:2019-04-10 06:59:30

标签: python entity extraction ner

我正在尝试对诸如驾照之类的文档中的文本执行命名实体识别(NER)。我们已经从文档中提取了文本。我们的目的是找到名称,地址,国家/地区,文件编号等文字。

用于NER的python库NLTK和Spacy无法正常工作,因为没有句子可以理解上下文。 培训NLTK / Spacy是否有效? 正则表达式模式匹配对实体提取有多好?

下面是提取实体的示例,

1)“乔治·华盛顿”-被标识为名字

2)“华盛顿特区笔尖大街1600号20500”-要标识为地址

下面是没有标签或部分的示例许可证,

Sample driving license

1 个答案:

答案 0 :(得分:0)

我认为您不需要使用任何已有的结构化数据, 意味着数据已经被提取,名称将在名称部分,许可证号将在许可证号部分,即使您在提取名称之后加上计划文本,名称之后也会是名称等,也许我不了解这种情况。

选项A:如果您使用正则表达式,则在格式严格的情况下,您将确定提取的数据是正确的,那么正则表达式是不错的选择, 选项B:使用spaCy或nltk可以完成相同的操作,但是并不能保证数据的正确性和正确性,