应用错误收集

NLP：Gazetteer是骗子

时间：2016-01-25 14:35:44

标签： nlp named-entity-recognition

在NLP中有一个full_name[4]的概念，它对于创建注释非常有用。据我了解，

Gazetteer

所以它本质上是一个查找。这不是骗子吗？如果我们使用A gazetteer consists of a set of lists containing names of entities such as cities, organisations, days of the week, etc. These lists are used to ﬁnd occurrences of these names in text, e.g. for the task of named entity recognition.来检测命名实体，那么Gazetteer不会发生。理想情况下，我希望使用Natural Language Processing技术检测命名实体。否则它如何比正则表达式模式匹配器更好。

这有意义吗？

1 个答案:

答案 0 :(得分：5)

取决于您如何构建/使用地名词典。如果你在一个封闭的领域展示实验并且你定制选择你的地名录，那么是的，你是在作弊。如果您正在使用一些公开可用的地名词典并在大型数据集上执行实验或在野外应用程序中使用它而您无法控制输入，那么您就可以了。我们发现自己处于类似的情况。我们对数据集进行分区，并使用训练数据自动构建我们的地名录。只要你报告你的方法，你就不应该感到作弊（让评论者抱怨）。