我已经成功地使用tokensregex进行基于规则的命名实体识别,但希望通过添加地名词典作为附加层来提高准确性。
我的数据实际上并不在文件中,而是在地图中看起来像: {"中国" = ["上海","北京"," Gonzo," ....],"英国" = [" London"," Manchester"," Edinburgh",...]}其中键是国家名称,值是相应的城市。
我可以使用此格式,即地图,还是需要包含位置名称和LOCATION标记的tsv文件?
如何在tokensregex中使用地名词典注释?
此外,因为tokesnregex一次只查看一个令牌,如何在地名词典中匹配像纽约这样的多个令牌词?
答案 0 :(得分:0)
您可以尝试将regexner
注释器作为第一层运行,以执行基于字典的查找。这允许使用字典标记具有特定NER标记的标记序列。