如何使用Tokensregex的地名录?

时间:2017-04-26 11:36:39

标签: stanford-nlp

我已经成功地使用tokensregex进行基于规则的命名实体识别,但希望通过添加地名词典作为附加层来提高准确性。

我的数据实际上并不在文件中,而是在地图中看起来像: {"中国" = ["上海","北京"," Gonzo," ....],"英国" = [" London"," Manchester"," Edinburgh",...]}其中键是国家名称,值是相应的城市。

  1. 我可以使用此格式,即地图,还是需要包含位置名称和LOCATION标记的tsv文件?

  2. 如何在tokensregex中使用地名词典注释?

  3. 此外,因为tokesnregex一次只查看一个令牌,如何在地名词典中匹配像纽约这样的多个令牌词?

1 个答案:

答案 0 :(得分:0)

您可以尝试将regexner注释器作为第一层运行,以执行基于字典的查找。这允许使用字典标记具有特定NER标记的标记序列。

此处的文档:https://nlp.stanford.edu/software/regexner.html